图片

抓住风口

国庆假期,科技圈几乎被一件事彻底引爆:OpenAI的Sora 2。

10月1日,Sora2模型和独立的APP产品上线后,无数以假乱真的AI视频在社交媒体上病毒式传播,Sam Altman忙着全球带货,祝福国庆快乐。

我们科技特训营也做了Sam带货的视频,如果不是海报上的中文有错误,确实挺不错。

今天我们就按照前哨科技特训营【技术-产业】的框架,和大家一起做深度分析。

更多专业点评,欢迎观看10月9日会员直播。

国庆节期间,前哨科技特训营也为大家带来限时福利,国庆期间下单立赠2个月学时+一份神秘知识大礼包。

不止于炫技:引爆传播的“杀手”功能

与一年前主要面向开发者和创意工作室进行技术预览的Sora 1不同,此次发布的Sora 2是一次真正意义上的产品化落地。

它以一款独立的移动应用(Sora App)形式直接面向广大消费者,并在功能上实现了大幅升级:

“随机”到“可控”——人人都是导演

Sora 1最让人沮丧的是虽然演示效果惊人,实际使用全是抽卡,同一个提示词使用几十次才能勉强有个可用的图片,价格又贵自然无人问津。

Sora 2不但对物理规律有更好的理解,还拥有了电影导演级别的镜头语言理解能力,加上首次实现“音画同步生成”,真正让用户体验到了“导演”的快感。

你可以像写剧本一样,用复杂的指令进行多镜头调度(“先广角,再特写”),也能安排画面中人物具体表演(中英文台词、情绪表达),Sora 2基本能保持角色和场景的连贯性。

这种创作自由度的飞跃,是它从“玩具”进化为“工具”的关键一步。

“旁观”到“入戏”——Cameo客串带来病毒传播

这是Sora 2最富病毒传播潜力的功能。通过录制自己的形象和声音,用户可以生成一个数字分身,并让“自己”出现在任何AI生成的奇幻场景中——在赛博朋克的都市里飙车,或是在外星球上与怪兽对话。

这背后是非常强的图像和声音生成的Few-shot能力,也就是说只需要少量数据就能掌握规律,进而泛化模拟。

用户还能将自己的“Cameo”分享给好友,授权他们在自己的创作中使用,真正实现了AI视频的“多人合演”

这种“成为主角”的新奇体验,激发海量的二次创作和社交分享,是Sora 2从技术展示走向大众娱乐的引爆点。

冰山之下:不是颠覆,而是工程优化

这些惊艳的功能背后,有什么技术秘密呢?

Sora 2的官方文档“犹抱琵琶半遮面”,只模糊地将其描述为从“GPT-1时刻”跨越到“GPT-3.5时刻”的视频模型,更懂物理、可控性更强。

然而,官方介绍中的一句话引起了我们的注意:“一个重大里程碑是在大规模视频数据上掌握预训练和后训练”。

先说结论,Sora 2的飞跃并非源于某种全新的、颠覆性新技术,而是在“预训练”和“后训练”这两大环节上,实现了极致的工程优化。

结合2025年的前沿论文和开源实践,我们可以拼凑出Sora 2“黑箱”内部的技术进阶之路:

第一步:预训练——从“看懂”视频到“理解”镜头

2023-24年,AI视频生成领域的主流思路,是将生成图片的Diffusion模型和擅长处理序列的Transformer模型进行整合。

一代Sora正是这条技术路线的工程化成果。 它的一大创新,在于改变了AI学习视频的方式:不再是把视频拆成一张张独立的图片去学习,而是将包含时间维度的视频数据块(时空块 Spacetime Patches)作为一个整体交给AI。

这让AI开始理解物体在时空中的互动关系,从而自发地掌握了一些基础物理规律。

可惜这只解决了“单镜头”的真实性问题。一旦需要多镜头叙事,一代Sora就常常“失忆”,前后镜头中的人物、场景判若两人。

Sora 2的核心优化,正是解决了这个问题。 它在预训练阶段,引入了更先进的“长上下文(Long-Context)”能力。

2025年AI视频前沿的LCT(长上下文微调)等研究正是聚焦这个方向,通过扩展模型的“记忆”窗口,让模型可以“记住”前一个镜头发生了什么,从而在生成下一个镜头时保持逻辑和视觉上的连贯。

Long Context Tuning for Video Generation

图片

同时,类似Cut2Next(下一镜头生成)等研究,则通过海量的电影数据,教会了模型专业的“剪辑语法”和“镜头衔接”规则。

这解释了为什么它更像在“拍电影”,而不是在“拼贴画”。

第二步:后训练——让模型更“听话”、更“聪明”

让AI“博览群书”还不够,更关键的是如何让它“学以致用”。这就是后训练(Post-training)发挥作用的地方,也是Sora 2“更听话”、“更聪明”的秘密所在。

这背后很可能是OpenAI将在GPT系列上大获成功的“指令微调+偏好对齐(RLHF/RLAIF)”范式,迁移到了视频领域。

简单说,预训练是让模型看海量视频“博览群书”,而“后训练”则像请了一位导演,用专业的“分镜脚本”和“摄影语言”来一对一辅导,并根据人类的喜好进行奖惩,最终让模型变得更“听话”。

Sora 2的物理世界模拟更真实,懂得“合理地失败”(如篮球投丢会弹框),得益于“评测-回灌”纠错闭环。

Open-Sora 2.0等开源复刻项目的工程路径给出了一些参考,研究者会专门训练一个“裁判”模型来识别“穿模”、“瞬移”等不合逻辑的画面,然后把这些“错题”反馈给模型进行再训练。

这个不断“刷错题本”的过程,让模型学会了物理规律,甚至学会了如何正确地“犯错”。

一句话总结:Sora 2的质变,源自预训练和后训练的极致工程优化。更长的“记忆力”让它更加连贯,导演级的“培训”让它变得听话,聪明的“纠错”机制让它更懂现实世界。

再加上“视听联合建模”(Google Veo 3等竞品的共同趋势),最终实现了“一条指令,音画同步”的颠覆性体验。

App才是真战场:OpenAI的阳谋

比技术升级更值得关注的,是Sora 2的发布形式——独立App。

这标志着OpenAI正在重演自己初见势头的商业战略:构建C端平台级产品。

ChatGPT靠着巨量日活已经打开了AI应用平台化的机会,图片视频领域能不能复现这个壮举?

Sora2显然是为了回答这个问题。

虽然不少媒体已经鼓吹Sora App会成为“AI版TikTok”,但我们还是要清醒认识到,一切才开始。

AI视频即便真能创造下一个抖音,今天出现的也只是“AI版小咖秀”。

和靠模版崛起的“小咖秀”类似,Sora今天火爆的内容仍然依靠少数几个memo传播(迷因,梗)。

当新鲜感过后,用户是否会对风格趋同的AI视频产生审美疲劳?能否维持长久的社区生命力?

如今,Google已宣布将自家Veo模型整合进YouTube,Meta也在App内上线AI视频。这意味着OpenAI不是在蓝海中悠闲探索,而是在虎口夺食。

Sora 2要避免重蹈覆辙,就必须在热度退去后,找到用户真正愿意留下来的理由。

正如网友的一句评价:“AI也许真能造出0.5秒的好莱坞大片,但如果没有用户愿意持续观看和创作,再炫的技术也是自嗨。”

当所有人都在惊叹Sora 2的视频效果时,你应该看到OpenAI的平台野心;当媒体在讨论AI视频的未来时,你应该思考其商业模式的挑战。

这种穿透表象、洞察本质的思维能力,正是【前哨科技特训营】希望交付每位会员的核心价值。

如果你也想拥有这种能力,欢迎现在加入!不要错过国庆、中秋限时特惠!

图片

↓长按图片扫码报名,先人一步,领先一路

图片