2 月 16 日凌晨,OpenAI 突然发布了自己的首个文生视频模型——Sora,大幅刷新行业多个指标,重新定义了 AI 文生视频在现阶段的技术极限,颠覆了生成式 AI 在视频领域的全球市场格局。
Sora 使用 Transformer 架构,建立在 DALL·E 3 和 GPT 模型之上,可以生成长达一分钟的有运动、多机位视频。相比业界水平,Sora 将视频生成的时长一次性提升了 15 倍,超过了市面上所有短视频的时长要求。
同时,Sora 也带有世界模型的特质。世界模型不是 AI 视频生成的必须要素,却是这个领域较为高端的一个研究方向。所谓世界模型,简单点说,是要对真实的物理世界进行建模,让机器像人类一样,对世界有一个全面而准确的认知。世界模型会让 AI 视频生成更流畅、更符合逻辑,同时,世界模型也为生成式 AI 真正进入自动驾驶行业铺好了路。
Sora 的世界模型,已经能帮助它还原一辆越野车在山区小路上的行驶情况,在视频中添加逼近真实的颠簸感。
图/OpenAI 官网,为 Sora 生成的视频,部分截取
但 Sora 的世界模型仍有非常多的问题,比如,一块饼干被咬过之后,却没有留下咬痕。
OpenAI 一拳打在了所有人的肝上——全球的 AI 视频生成赛道投资逻辑,乃至相关企业的生存逻辑,在此刻都已经改变了。未来一个季度内,如果该企业的视频生成能力,仍然停留在 4s,或导致直接出局。AI 已经快速迈过文生文、Chatbot 时期,大步进军视频生成领域:当下最火的短视频、短剧,将迎接 AI 的到来;那些卡在瓶颈上的领域,比如自动驾驶、智慧城市,或将迎来突破。
图/OpenAI 官网,为 Sora 生成的视频,部分截取
AI 视频生成真正的难点是在文生视频,而非图生视频、视频生视频。文生视频需要根据指令,从文字解码出视频的时空逻辑,并且保证在这一逻辑下,画面中所有物体的运动、变化,符合要求和现实世界规律。而图生视频、视频生视频就像“照猫画虎”,因此比较简单一点。这也是为什么,市面上的 AI 视频生成,始终停留在 2-4 s 的时长范围内。很多企业更关注所谓 AI 视频生成的产品化、商业化,聚焦于推出一些基于模板,快速用于营销的视频生成工具,在世界模型层面有所欠缺,一旦视频时长增加,模型不能理解真实的物理运动和相互作用逻辑,就会变得十分无力。
OpenAI 的 Sora ,就是在文生视频,增加视频时长,建立世界模型,这几大最主要的难点上,走出了突破性的一步。但这并不代表 Sora 没有问题,可以以假乱真,它的问题在于凭空生成。
另外一类主要问题,在于 Sora 的世界模型仍然不够完善。比如一个男人倒着跑跑步机,且跑步动作并不连贯自然。一群考古学家,在沙漠里挖出一个塑料椅子,煞有介事的清理灰尘,而椅子本身则在诡异的漂浮和变形。
男人倒着跑跑步机
图/OpenAI 官网,为 Sora 生成的视频,部分截取
Meta 首席人工智能科学家、图灵奖得主杨立昆一向对生成式 AI 的幻觉和一系列反智行为嗤之以鼻,并认为 AI 只有真正理解物理世界,才具备真正的价值。2023 年 6 月,他推出了 I-JEPA 模型,用真实世界的背景知识,补充图像缺失的片段,但这仍然是个技术研究层面的概念。
2023 年 12 月,AI 视频生成的领头羊之一 Runway,官宣下场通用世界模型,高调发布系列招聘,宣称要用生成式 AI 来模拟整个世界,以应对 Pika 。在杨立昆看来,局面在向着好的方向发展:自己的研究方向得到认同,拖累 Meta 的谣言不攻自破。可他错了。
Sora 发布前,有很多烟雾弹式的讯息更新,比如:OpenAI 组建研究儿童安全的新团队、OpenAI 正准备推出 GPT-4.5-turbo,但真正的“杀手级更新”被隐藏的很好,这也导致像 Pika、Runway 一样的明星创业公司,措手不及。何况 OpenAI 的联合创始人 Andrej Karpathy 本来就是 Pika 的资方之一。
源码资本副总裁李露霖在虎嗅主办的沙龙上表示,短视频是当前硬件基础设施Mass Market 渗透率最高的形态。有数据透露,目前国内短视频用户的规模在 10 亿以上,但是在 Sora 发布前,所有的视频生成工具都没有达到可付诸商业或工业化生产的水平。
有专家表示,大厂目前对于 AI 视频生成的态度模棱两可。根本问题在于,现在的人工视频生成效果更好,且成本也能接受,AI 视频生成,在此前没有大家想象的那么颠覆,所以整体策略偏向“防御”,而非“进攻”。
这一切,既麻痹了像 Pika、Runway 一样的创业公司,让他们以为机会已至、前景够好;也让这些公司及其投资人,低估了视频生成赛道的竞争烈度,以为窗口期仍然足够长。
所有的 AI 视频生成公司,在这种麻痹里,都陷入了同质化竞争:过多关注更高画质、更高成功率、更低成本,而非更大时长以及世界模型。
图/PixelDance 官网视频案例
接下来在资本市场的影响,很可能是隐性的。对于国内 AI 出海的企业而言,形式将变得更加艰难。换句话说,从移动时代迁移至今的、基于场景和产品能力,快速上线一个插件的商业模式,正在海外 AI 市场失效——
因为像 OpenAI 这样的企业,正屹立在市场上。他们几乎重现了当年 Oracle 市场领导力,一步快,步步快,降维打击所有竞争者。