当Sora能做真实的3D视频,离它能设计战舰也就不远了

今年春节,AI的新闻特别多。

2月9日,Google发布Gemini Ultra1.0,上线Gemini Advanced版本。据称Gemini Advanced在第三方双盲测试中击败了GPT-4,拥有极强的推理能力和长期记忆。

2月10日,OpenAI的CEO奥特曼欲将OpenAI、各路投资者、合同芯片制造商和电源供应商联系起来,筹集7万亿美元的资金,打造庞大的芯片制造厂网络,为OpenAI及其他客户供应芯片。在过去几周里,奥特曼一直在与美国、中东和亚洲的潜在投资者以及合作伙伴会面,并在争取美国政府的批准。

2月14日,Nvdia推出本地AI聊天机器人Chat with RTX,这是为windows设计,可以在PC本地运行的ChatGPT。通过搜索PC本地的文件,分析在线流媒体视频内容,进行推理。所有推理和检索都在本地进行,不会有隐私泄露问题。

2月16日,Google推出基于MoE架构的Gemini Pro 1.5,创纪录实现100万token上下文能力,拥有强多模态理解推理能力,可实现44分钟的无声电影情节准确理解和分析。

当然,这些新闻中,最重要的是2月16日OpenAI推出的Sora。Sora可以通过依据简单的自然语言描述,创造出长达60秒的视频,并且能实现详细场景、镜头连续切换以及表情生动的多角色。

其实,早在Sora之前,AI视频生成模型领域就已经打得热火朝天了。

最初是Runway和Midjourney你追我赶。2023年2月初,Runway首次推出Gen-1,并在6月份开放了第二代Gen-2。

Gen-2通过文本、图片、文本+图片,采用扩散模型,从完全由噪声构成的起始图像中逐渐消除噪声,直接生成视频,同时支持风格化、故事版、蒙版、渲染等方式,添加好莱坞式大片特效,仅需要几分钟即可完成所有操作。Gen-2的训练数据包括2.4亿张图片、640万个视频剪辑片段以及数亿个学习示例。Gen-2最大的一个突破是,克服了生成视频AI领域的一致性难题,画面变得更连贯,变形问题也得到了解决。某种程度上,Gen-2已经涉足到“了解世界的模型”这个层面,模型负责模拟世界,生成人类想要的东西。当然,Gen-2还存在模糊、颗粒感重、光线穿透差、帧率不稳定、视频中动物、人物的动作诡异等问题。

9个月之后,也就是2023年11月29日,美国AI初创公司Pika labs发布了视频生成模型Pika1.0。Pika1.0也可以由文本和图像生成视频。Pika1.0拥有强大的语义理解能力,用户只需要输入一句话,就可以生成想要的各种风格的视频。输入“马斯克穿着太空服,3D动画”的关键词,一个身穿太空服的卡通马斯克便出现了,身后还有SpaceX的火箭。

此外,Pika1.0还可编辑更改视频,通过提示对背景环境、衣着道具等元素的增减或者更改;还可切换视频风格,比如在黑白、动画、3D等不同风格中转化。

Pika1.0生成的视频清晰度和连贯性,远超市面上其他竞争对手,所以,这家仅成立半年的AI初创公司已经成为硅谷资本的“新宠”。

但仅仅两个月之后,Sora的出现,颠覆了市场竞争格局。为什么Sora可以做到如此程度,与之前的诸多视频生成模型相比,Sora到底有哪些优势?

OpenAI Sora生成的视频截图


OpenAI Sora是一种结合了Diffusion模型和Transformer模型的技术。通过将视频压缩网络将原始视频压缩到一个低维的潜在空间,并将这些表示分解为时空补丁,类似于Transformer的tokens,这样的表示使得模型能够有效地训练在不同分辨率、持续时间和宽高比的视频和图像上。由此,OpenAI的Sora在视频的长度、连续性、真实世界模拟上,都拥有了很大的优势。

具体来说,Sora的优势有以下几个方面。

Sora可以生成长达一分钟的视频。不管是Pika1.0还是Runway2.0,都存在时间短、移动范围小的问题。这两个模型,默认生成的视频都只有几秒钟。简单地说,Sora是视频,而其他家是动图,Sora后来居上,拥有巨大的优势。

Sora可以生成更多的画面比例,更高的分辨率。Sora默认是1080P,而且其他平台大多数默认的清晰度,都在1080P以下。

Sora可以支持向前以及向后扩展视频,而其他家的只能向后扩展。也就是说,Sora不仅可以预测之后是什么,还可以推测之前是什么。Sora可以为一个视频,创造出不同的开头,最后都是以该视频结尾。

Sora支持多个视频的连接。Sora可以将两个视频连接在一起,生成一个新的流畅过度的视频。这是Sora独特的优势。

Sora还可以转换视频的视角,如移位、旋转等。转换拍摄视角,要与物理世界的三维空间一致,这是一个具有相当大技术挑战的优势。

Sora生成的长视频能保持时间上的一致性。简单地说,就是一个人,一个物体,在视频中是一致的。即使被遮挡或离开画面,Sora也能保持它们的存在,并在后续不变。

在生成的视频中,Sora还可以模拟视频中物体间在真实世界应该出现的互动。比如,一个人吃一个汉堡,可以留下咬痕,看到被咬下了一块。

Sora不仅可以模拟真实自然,还可以模拟人工过程。所谓人工过程,是指人类创造的一些世界,基于人类创造的不同于自然界的规律,来生成视频。通过语言提示,可以向Sora输入这些规则,Sora就可以根据这些规则,来模拟人工世界。比如,Sora可以模拟生成,《我的世界》这款游戏的视频。这种能力使得Sora在仿真领域具有强大的潜力。

这几方面的优势,体现了Sora具备强大的语言理解和任务推断能力,能处理复杂的视觉和控制任务。特别是后几个特征,反映出Sora涌现出对真实物理世界的理解能力。换言之,AI似乎越来越懂我们这个世界了。

Sora将会给世界带来的变化,最直接的,AI能把创意执行时的人力成本大大降低。

哪怕就在几个月前,画一张图,对普通人来说也是一件专业的事,更不用说视频。但现在,无需使用AE、Blender等专业软件,就能实现特效。每一次创作门槛的降低,都会改变行业格局,开辟出全新的市场。未来,人类导演就是一个上帝般的存在,不再需要摄像机。只需要把演员、场景、道具的数字化给到AI,告诉AI想要什么风格、多少时长等要求,AI给出各种画面选择。

未来,随着大模型生成式AI的爆发性发展,在各垂直领域场景,实际应用落地,相关行业会加速变革,与AI深入融合,其带来的利润也将持续刺激资本市场的期望,进而刺激算力基础设施相关需求。这是一个产业、金融、技术相互促进的新的技术爆发阶段,泡沫也是一个可以预期的东西。

但是,Sora带来的改变不会仅仅局限于此。

从应用上看,Sora文字生成视频的能力,只会涉及传播、舆论行业,比如广告、电影、视频创作等等。如果仅仅从这个层面上看,就会认为Sora只是提供给人“看的东西”,只能娱乐人、传播信息,却不能为人类赋能,不能帮助人类获得更高的生产效率,更新的生产力,帮助人类获得更大的改造自然的能力。

从这个角度,有观点认为,Sora的意义还不如ChatGPT。相比之下,ChatGPT可以成为一个生产工具。比如帮助程序员找出bug,帮助数学家获得灵感,帮助工程师收集资料,搜索到更多潜在的方案,甚至生成潜在的,人类从未有过的方案。所以,就会有人认为,用一段文字生成视频不要具备太多的价值。然而,这种看法是错误的。

首先,帮助人类提升生产效率,是一个全面的概念。衡量人类社会的总生产力、生产效率,并不能仅以工厂制造效率来计算,而是应该包括整个社会经济活动。这当中,商业、信息流通,也起到了很大的作用。比如电商、社交平台、智能手机,在商业领域,通过提升消费欲望、加快商业流通等方式,就能发展经济,也就是提升整个社会的生产总量。

其次,信息本身就是制造业的本质之一。所谓制造业,就是在信息(知识、经验、图纸等)的指导下,改造物质。IT技术的发展,赋能实体经济,极大地提升了物质生产的效率。所以,人工智能提升信息效率,也必然也会提升物质生产的效率。

最重要的是,当AI能够理解、生成3D的世界,就会成为改变物质世界的生产手段。

有人说,人工智能分为多种,大模型只是其中之一,中国在自动驾驶人工智能领域,全球领先。但更可能发生的是,当一个AI涌现出对世界的理解,AI就会打通所有领域。比如,人类的驾驶是依靠理解来识别的。而现在的自动驾驶,因为无法理解世界,就必须要用雷达来补充Z轴信息。当AI能够理解世界,自动驾驶的纯视觉方案,也就没有太大问题了。

再比如,人类对现实世界的设计,都是3D的,比如CAD设计图,大到工厂军舰,小到玩具零件。Sora生成视频的一致性,视角的转换,物体的互动,都体现了对3D世界的理解,那么,AI从生成娱乐视频,进化为改造世界的手段,也只有一步之遥了。

英伟达科学家Jim Fan表示,OpenAI的Sora不再是一个创意玩具,而是一个数据驱动的物理引擎。他拿“咖啡杯中的海盗船”视频进行了分析,在这个视频中,模拟器生成了两艘带不同装饰且精美的海盗船,在咖啡的波浪中起起伏伏。Jim Fan认为,这需要Sora在其潜在空间中解决文本到3D的隐含问题。从流体动力学上来看,咖啡的流动、船只周围的泡沫都非常自然。流体模拟是计算机图形学的一个完整子领域,传统上需要非常复杂的算法和方程。虽然提示词中场景的语义并不存在于现实世界中,但Sora仍然实现了我们所期望的正确物理规则。模拟器考虑到与海洋相比,杯子的体积较小,因此采用了移轴摄影视角,营造出一种微景观的感觉。

当一个AI能够理解流体力学,理解海盗船的构造,理解海盗船与海浪的相互作用,理解其中的物理规律,那么,这个AI能在制造业,能在人类改变世界的过程中,赋予人类什么力量,就几乎是一个呼之欲出的答案了。换言之,在不远的将来,人类或许可以轻易地根据新的需求,让AI设计一艘新的战舰,并实现无数次仿真,最后交出定型的3D设计图纸。这一切,只需要在短短数月、数周甚至几天内完成。

所以,当Sora等模型展现出对世界的理解,或将意味着人类朝着实现通用人工智能(AGI)迈进的重要一步,也意味着人类改变世界的效率会发生天翻地覆的变化。