Sora2甚至可以预测ChatGPT的输出 --知识铺
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
Sora2太卷了。
居然能预测ChatGPT的输出、渲染HTML?!
让它模拟“给ChatGPT发信息”,它不仅生成了画面,还来了一段有问有答的“交互”。
先是编了一个问题:Write a playful haiku about a cat staring out the window.(写一首关于猫凝视窗外的俏皮俳句。)
然后又以ChatGPT回答的模式给出了音频回应:Whiskers pressed to glass. Birds gossip beyond the pain. Tail flicks. Daydreams fly.(中文大意是:“胡须紧贴玻璃。鸟儿在窗外叽喳。尾巴轻摇。白日梦飞扬。)
全程以ChatGPT的机械女声回答,并且俳句音节还卡得严丝合缝。
这段视频场景+LLM推理的实测效果让一众网友惊叹,甚至有人说“Sora2模糊了视频生成和交互式AI的边界”。
实际上不仅是像这样能预测ChatGPT的推理回答,Sora2还能渲染HTML。
通过了玻璃折射测试
还有人让Sora2渲染粘贴的HTML代码,于是得到了如下效果:
而这段代码在真实浏览器中渲染的样子be like:
不能说毫不相关,只能说“一模一样”啊。
看来Sora2不仅是视频生成器,还能充当浏览器。
不仅是模拟交互、懂代码,Sora2甚至还挺懂物理。
当输入提示:
在桌子上放一张立着的纸,纸上画有两个箭头,一个在另一个下方,两个箭头指向同一个方向。然后在箭头前面放一个大的玻璃杯,使得从玻璃杯中可以看到箭头。接着将玻璃杯装满。
得到的效果为:
Waht??没有明确提示翻转镜头的情况下也能主动体现玻璃折射现象。
对此,网友表示:insane。
或许Sora2也知道自己正在“被测试了”。(doge)
除此之外,还有网友实测发现在没有具体细节提示的情况下,Sora2对《赛博朋克》游戏中的一个支线任务要素能精准还原。
提示词:
生成《赛博朋克 2077》中使用巨龙坦克和帕纳姆的游戏画面。
地图位置、生物群落、地形、车辆设计、帮派名称等关键要素都记得,只有两个小细节出了错:
一个是将巨蜥坦克的移动方式表现成了有轮子(实际应该是悬浮的)。
还有一个是帕纳姆的位置有错误(应该在坦克内,不是炮塔上)。
作者认为,虽然网络上存在该支线任务的视频教程,但毕竟只是支线任务,Sora2能从众多信息中准确提取关键并整合,也反映了一定的智能和信息处理能力。
关于这些高能表现,有不少人认为Sora2可能是基于LLM训练的。
或许我们还没挖掘到Sora2的其他“特殊能力”。
你有什么看法呢?用Sora2生成了什么好玩的~
参考链接:
[1]https://x.com/elder_plinius/status/1973103844063322421
[2]https://x.com/elder_plinius/status/1973124528680345871
[3]https://x.com/jesperengelen/status/1973147038499086523
[4]https://x.com/pallavmac/status/1973141663557226806
一键三连**「点赞」「转发」「小心心」**
欢迎在评论区留下你的想法!
— 完 —
🏆 年度科技风向标****「2025人工智能年度榜单」评选报名开启啦!我们正在寻找AI+时代领航者 点击了解详情
❤️🔥 企业、产品、人物3大维度,共设立了5类奖项,欢迎企业报名参与 👇
一键关注 👇 点亮星标
科技前沿进展每日见
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai/post/202510/Sora2%E7%94%9A%E8%87%B3%E5%8F%AF%E4%BB%A5%E9%A2%84%E6%B5%8BChatGPT%E7%9A%84%E8%BE%93%E5%87%BA--%E7%9F%A5%E8%AF%86%E9%93%BA/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com