国庆节Sora2狠狠的火了一把,Sora2是OpenAI国庆节刚发布的

视频生成模型,能够用一句话直接生成完整视频的多模态模型。

Sora2在发布模型的同时,还同时发布了一个iOS应用,结果当天就直接到了美区的iOS应用榜单第一名。在海外病毒式传播的同时,即使是在国庆放假期间,在国内各个平台上仍然特别火爆。

Sora2火爆,自媒体工作者也没闲着,好多人开始写文章,但是这两天好多朋友跟我说写Sora2的文章被封了,我去研究了一下发现公众号还是有很多Sora2的内容,然后大概又去了解了一下被封的文章都是什么内容,发现其实是有共同特征的。

找到这个特征后,我又从微信搜索验证了下,基本验证了我的想法。但是出于安全考虑我在这里不方便说具体原因,如果很想要知道的可以去公众号后台回复【Sora】了解原因。不是版权之类的问题。

让我们回到正题,我们继续来讲讲Sora2,主要聊聊Sora2为什么这么火,Sora2为什么生成的视频这么好,跟其他模型的实现有什么区别,以及最后Sora2带来的改变是什么,我需要警惕什么。

Sora2火爆的原因是它一句话一次性生成连贯且高质量的视频,社交平台上很多人使用自己的形象直接一句话就可以生成好莱坞大片,人物的动作、声音口型、音频画面全都一致,一次性直接生成,再也不用使用很多工具拼凑一个完整视频了。

下面是一个制作的案例:

Sora2是视频创作的AHA时刻,以前的视频模型大家会叫做:Text-to-Video,Video-to-Video或者多模态,生成视频的时候是frame-by-frame的逻辑,逐帧单独生成或依赖前几帧去预测下一帧,模型只关注像素值,不关心动作逻辑、物理规律、长时一致性。

所以之前用大模型做视频创作的时候,还需要我们去提供首尾帧以及对应的文字描述。并且很容易出现跳帧或者正常人类不能理解的动作。

因为传统的视频模型只是图像的时间延伸,是图像的拼凑,所以也导致传统模型在做视频的时候生成的时间是比较短的。

OpenAI自己把Sora2叫做世界模拟模型,不仅是生成视频,而是在建造世界,这个模型能理解世界在时间轴上如何延续,知道世界的物理规律是什么。

它会先去构建一个世界,这个世界里有:角色、动作、时间、声音等。他能够理解这些所有的元素对应现实世界的东西,然后在这个世界里推进时间、动作、光影和叙事,然后渲染成视频。

也是因此Sora2可以直接生成视频的时候,同时生成音频,视觉帧,并且匹配角色的动作一致性,直接是一个可用的视频了。

Sora2实际上打破了生成视频的长度的限制,在技术层面只要资源足够,它可以像游戏引擎一样连续生成视频。

深究原理,其实Sora2是使用了更基础的元素,以前视频元素不是在理解图片和视频中的内容,而只是在理解图像背后的像素矩阵,而Sora2是在理解图像上的所有内容。当然跟之前的模型对比,Sora2的成本也变得更高了。

所以其实我们可以放开想想,还有哪些大模型没有使用最基础的元素,没有使用第一性原理。

这几天我看到用Sora2创作出来的视频的时候,我真的感觉有点像在做梦一样。回想一下,就在8月份我们还在被Nano Banana的图像生成和编辑能力所惊叹,9月份我们又因为Wan2.5-preview的音画一体视频生成等功能大开眼界。没想到这10月份刚开局,Sora2就直接来了个王炸。

但是在惊叹技术快速发展的同时,心中的隐隐的焦虑与担忧也越来越多。

当朋友圈里的好莱坞大片越来越逼真,当一句话就能生成的视频连至亲都难辨真伪,Sora2带来的震撼里,也藏着技术狂奔下的隐忧。它用世界模拟的逻辑打破了创作边界,却也让深度伪造的门槛降到了前所未有的高度。

Sora2必定不是终点,未来肯定还会有更强大的模型不断涌现,它们会更懂世界,也可能更懂如何模糊真实与虚构的界限。

技术在狂奔,但我们需要保持保持敬畏之心。