几个灵魂拷问 --知识铺
国庆期间AI催化不断,Sora2 App登顶苹果商店、OpenAI开发者大会、与AMD签下6GW大单、官网介绍OpenAI on OpenAI、推出个性化功能ChatGPT Pulse、FT报道OpenAI的端侧硬件、Anthropic发布Sonnet 4.5、谷歌发布Gemini 2.5 Computer Use…以上事件的具体梳理已经非常多了,我个人认为更值得探讨的,是以下几个灵魂拷问,特别是在产业的水温快速上升的今天
➠2030年的饼能不能信?
➠大语言模型的智能边界在哪里?
➠OpenAI到底在下一盘什么棋?
➠SaaS和大模型的关系究竟会是怎样?
2030年的饼能不能信?
➠这个问题的本质是对需求的理解,乐观派有两种观点:
1)模型能力是在持续进步的,尤其是今年以来,北美巨头的fomo行为,一定是因为他们看到了什么非常promising的东西(maybe AGI可以实现了?)
2)AI已经迈过了它的“iPhone4时刻”,即大模型的可用性已经足以持续催生出庞大的需求,就算后续的模型更新不是每次都有跃迁,也不会影响庞大的推理需求持续增长(影响的只是需求产生的速率,类比每年的iPhone销量)
➠悲观派也分两种观点:
1)AI的货币化难堪重负,OpenAI最新预测2030年收入达到2000亿美金,但这和老黄给出的3-4万亿的算力Capex相比依然不在一个量级。目前各家大厂的天价“套娃合同”,似乎只能通过资本市场来买单。更有观点认为融资/卡位产业链/抢算力/抢产能(OpenAI现在做的事儿)正在成为护城河,这种观点的出现离泡沫化也不远了
2)AGI并不能靠目前的Transformer架构达到,相关论据推荐去看看Richard Sutton的最新博客(今年图灵奖得主、RL技术奠基人),我们在下面这个问题也将展开讨论
大语言模型的智能边界在哪里?
➠Transformer的乐观派认为语言作为人类为了实现推理发明出的最具泛化能力的工具,语言的边界就是智能的边界,对于人类而言限制只是大脑的算力。而对于AI而言,越超人类的算力+使用人类的语言或许能把智能带上更高的台阶,即Scaling Law是持续有效的
➠Transformer的悲观派则认为语言作为高度压缩的一维序列信息,压缩过程中必然存在信息损失,并且大模型中没有ground truth,因此无法真正成为世界模型。智能的本质是拥有目标,而下一个词预测只是一个行为系统,不是智能。大语言模型只是从训练数据中“模仿”学习,不是像动物一样从“经验”中学习
OpenAI到底在下一盘什么棋?
➠流量入口的争夺已经拉响。OpenAI的开发者大会就释放了一个明确信号,即8亿用户是OpenAI最大的筹码,看起来确实比SoTA模型更管用。有了庞大的用户,OpenAI可以把Sora技术转化为社交平台,可以号召App加入其ChatGPT生态,可以打通支付从电商交易中抽成
➠OpenAI是商业化的开拓者。大模型的商业化一直是产业中最捉襟见肘的环节,仅靠订阅和API收费显然无法支撑起2000亿美金的收入。在OpenAI的2030年预测中,有超过1/3的收入来自Agents&New Products,其中电商抽成和IP分成是本次devday上OpenAI交出的新货币化方式,未来我们期待更多
SaaS和大模型的关系究竟会是怎样?
➠大模型吞噬的软件的观点还在继续演绎,OpenAI发布DocuGPT后Docusign和Adboe直接跳水,应用公司通过Apps SDK接入ChatGP仍然是一件比较难受事情:从独立的App变成一个ChatGPT里的小程序,虽然比彻底沦为MCP管道要体面一些,但还是动摇了不少应用公司的生态位和获客能力,失去用户流量对一些应用公司来说是致命的 ➠客观来说,我们其实仍处于“模型定义应用”的初级阶段,SaaS公司的用武之地或许是在产品更加定型,需求更加明朗的中后期。当前应用公司最大的机会是设计出不同于现有模式的交互方式(UI/UX)。因此,长期看一定是共存>吞噬,但短期传统SaaS确实面临比较大的逆风,市场对此也一直在price in悲观的预期
【国庆期间OpenAI事件汇总】
Sora 2
Sora 2+Sora APP…
- 这是OpenAI继ChatGPT后做的第二款App,在AI视频平台中加入了社交属性,可通过客串功能将自己和朋友的形象嵌入到视频中,发布后仅3天即登顶北美App Store榜首
一些人认为Sora 2会颠覆抖音,其实不然。抖音和Sora在我看来是对应了两种不同的需求,抖音更像是看电视,是一种被动的内容消费;而Sora更像是玩游戏,是一种想象力的主动探索。用橘子老师的话来说:Sora的上限不在复制现实世界,而在打开平行世界的大门。抖音是现实世界的电视机,Sora是平行世界的电影制作引擎
开放了Sora-2的API…
- sora-2:快速版,适合快速迭代。几分钟出结果,适合社交媒体、产品原型、概念设计
sora-2-pro:更大更强,渲染时间更长价格更贵,但画质更精致稳定。适合高分辨率电影镜头、营销素材等对视觉精度要求高的场合
公布了Sora 2定价…
- sora-2 720p $0.10/s、sora-2-pro 720p $0.30/s、sora-2-pro 1080p $0.50/s
作为对比veo-3-fast 1080p $0.15/s、veo-3 1080p $0.40/s,和Sora处于一个价格带
国内的可灵 720p ≈¥0.40/s、可灵 1080p ≈¥0.70/s,比Sora和Veo还是要便宜不少
版权IP问题再成焦点…
- 奥特曼发文,即将对Sora进行两项更改:1)首先,我们将赋予版权所有者对角色生成的更精细控制,类似于肖像的自愿选择加入模式,但增加了额外的控制、2)其次,我们必须以某种方式通过视频生成来盈利。OpenAI将尝试与希望其角色被用户生成的版权所有者分享部分收入
IP版权保护,包括肖像权的保护将因为Sora变得尤为棘手。一方面Sora App因为OpenAI自带的流量使得AI生成的二创视频的传播度大幅提升,另一方面一些过去不太存在的现实人物滥用开始大量出现(例如看到了很多科比打篮球和霍金滑滑板的恶搞二创)
OpenAI提出的IP分成更多是一种一厢情愿的号召,我们需要意识到到恶意的二创对IP的价值是有负面影响的,这也是为什么博文中会有更改1)的需求。因此IP版权所有者将会以什么样的态度回应OpenAI的IP分成橄榄枝有待后续跟踪观察
OpenAI开发者大会
分享了最新的经营数据…
- ChatGPT每周活跃用户数量已经达到8亿,较上个月宣布的7亿个有所增加。OpenAI聚集了400万名开发人员,公司的API每分钟Token处理量达60亿(两年前API每分钟处理仅3亿个token)
日均token算出来才8.64万亿,这只是API的,考虑到ChatGPT才是最大的使用场景,总日均token估计有100万亿以上
为啥一直只披露WAU不披露DAU,是因为不够高频吗
全新开发者套件发布…
- Apps SDK(APPs inside ChatGPT):允许开发者在ChatGPT中构建交互式、自适应且个性化的原生应用。提供完整的技术栈,支持连接数据、触发操作、ChatGPT中加入交互式UI、用户登录和货币化
可以理解为是UX加强版的Plugin系统,通俗理解就是APP inside ChatGPT Apps SDK基于MCP标准构建,已开放Preview,年底会开放正式提交和审核流程 首批合作伙伴包括 Figma、Canva、Coursera、Spotify、Zillow 等,后续还将有更多应用接入
本质上还是OpenAI用着8亿用户来吸引应用公司加入ChatGPT的生态,用户数现在是OpenAI最大的筹码,看起来确实比SoTA模型更管用
虽然不少应用公司宣布通过Apps SDK接入ChatGPT,但对应用公司来说感觉仍然是一个比较难受事情:从独立的App变成一个ChatGPT里的小程序,虽然比彻底沦为MCP管道要体面一些,但还是动摇了不少应用公司的生态位,失去用户流量对一些应用公司来说是致命的
- Agent Kit(Building agents):提供一套完整的构建模块,包括Agent Builder(可视化画布)、Chat Kit(可嵌入式聊天界面)和Evals for Agents(代理评估工具),旨在简化AI Agent的构建、部署与优化,加速从原型到生产的全过程
Agent Builder:可视化编辑工作流,拖拽节点就能搭workflow,搭好后生产 workflow ID可直接使用 Chat Kit:可嵌入的聊天组件,处理流式响应、管理对话线程、展示模型思考过程 Evals for Agents:追踪评分了解agent决策过程、获取数据集评估单个节点、自动化 prompt 优化、第三方模型评估 Connector Registry:把所有数据源整合到一个管理面板里,包括预构建的连接器(Dropbox、Google Drive、SharePoint、Microsoft Teams)和第三方 MCP
Agent Kit看起来就是OpenAI 自家的Workflow编辑器,可以定位成支持更复杂流程的GPTs升级版,对标Dify、Coze、n8n等产品,其中很多功能Coze里已经都有,算是一个比较常规的产品
与Coze类产品最大的差异是,它的每个节点并不是非要指定输入,而是可以使用Chat History作为不同节点之间的Context/信息传递方式
- Codex:推出全新正式版Codex,它现在可以在 IDE、终端、GitHub和云端无缝运行,由GPT-5 Codex模型驱动,能大幅提升代码重构与审查效率。同时,还推出了Slack集成、SDK及管理工具
OpenAI 版的 Claude Code 自发布以来在开发者这边的口碑一直在提升,也跟Claude最近作死比较多有关(动不动给用户降智、Sonnet 4.5挤牙膏) Codex 不只是命令行工具了,可以在你的 IDE、终端、GitHub、ChatGPT 账号里都能用,无缝切换
-
API更新: 在API 中发布GPT-5 Pro,专为金融、法律、医疗等高难度任务设计,但价格也贵得离谱;推出GPT Realtime Mini,一款体量更小、成本更低(便宜70%)但声音表现力不减的语音模型;同时提供Sora 2 的API,它具备更高的可控性、更佳的音画同步效果,并支持概念开发和电商广告生成等场景
-
Instant Checkout and the Agentic Commerce Protocol(即时结账&代理式商业协议):OpenAI与金融科技公司Stripe合作推出即时结账功能,用户能够直接从Etsy卖家和Shopify商家购买商品,并开源了由 Stripe 提供支持的 Agentic Commerce Protocol,以便更多的商家和开发者可以集成代理结账
ChatGPT中打通电商的重要一步,sam很重视这个货币化的场景,后续看看take rate这些怎么制定
OpenAI on OpenAI
OpenAI分享了如何使用自己的技术和 API 的内部案例…
- DocuGPT:可在几分钟内将杂乱的合同文件转化为清晰、可搜索的数据,实现结构化沉淀与后续分析。替代过去采用人工逐条审阅与手动提取条款,合同审阅时间缩短超过50%,可一次批量处理数百至数千份合同
美股解读为对DOCU、ADBE利空
-
Inbound Sales Assistant(入站销售助理):为每个潜在入站客户提供个性化回复,生成真实且有帮助的答案。产品文档、政策库、客户案例和销售手册都被整合到模型可以进行推理的上下文中。该助理不会随意猜测。它能以准确的方式,用潜在客户的语言,直接针对他们的问题进行回应
-
GTM 助手:一个基于 Slack 的销售Copilot,用于集中管理客户背景信息和专家知识,能够自动生成日报,从经过筛选的语料库中回答问题。它简化了研究、会议准备和产品问答,OpenAI称使用了该工具逇销售人员效率提高了约20%
美股解读为对CRM、HUBS利空
-
研究助手:一个将数百万支持工单转化为对话式洞察的系统。团队可以在几分钟而不是几周内发现趋势并根据客户反馈采取行动
-
Support Agent:一种基于 AI 代理、持续评估和动态知识循环的运营模式。它将每一次互动转化为训练数据,提高质量,并将销售代表定位为系统构建者而非工单处理者
OpenAI&AMD采购协议
- 合作内容:1)5年采购6GW的AMD MI450(对应800亿美金收入)、2)AMD 向 OpenAI 发放了最多 1.6 亿股(约10%)普通股认股权证、3)解锁条件与部署规模(26年下半年部署第一个GW)和 AMD 股价挂钩(最后一批认股权证的生效条件是AMD的股价要达到每股600美元)
就在两周前,OpenAI 公布了一项与英伟达达成的 1000 亿美元股权与供货协议,该协议涵盖了 OpenAI 23 GW基础设施规划中的 10 GW。按每吉瓦约 500 亿美元的建设成本计算,加上 AMD 协议,OpenAI 在短短两周内已承诺接近 1 万亿美元的新建投资 此前OpenAI与 Oracle 已签署一份约 3,000 亿美元的云算力采购/容量合约,期限约 5 年,履约起点为 2027 年,是史上最大级别的云合同之一。除金额外,7月OpenAI 官方披露与 Oracle 将共建约 4.5GW 的 Stargate 数据中心新增产能 更早之前FT报道OpenAI联手博通共同设计的芯片将于26年出货,博通CEO在业绩会上提到“一位神秘的新客户承诺下达100 亿美元的订单”,市场猜测该客户为OpenAI
ChatGPT Pulse
- 作为个性化AI代理的预览版,Pulse主动研究主题并基于个性化聊天、提示和连接的应用程序(如Gmail和日历)为用户提供精选内容
记忆能力+个性化将是ChatGPT这类应用最显性的壁垒,OpenAI终于开始在刀刃上发力了
OpenAI端侧智能设备
FT最新报道…
- 已于今年5月以65亿美金高价收购前苹果明显设计总监Jony Ive的公司io
致力于开发一款无需屏幕、可掌握的设备,该设备能够通过摄像头和麦克风捕捉现实中的视听信号
该设备保持“持续待命”的状态,不需要唤醒词,全天候收集数据,构建虚拟助手的“记忆库”
算力短缺是延期的核心因素之一,如何让设备合理时间发言/闭麦也存在技术挑战
与立讯精密合作开发设计智能设备
context is everything 我们确实需要一个手机之外的“持续待命吸收context”的智能硬件
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai001/post/20251009/%E5%87%A0%E4%B8%AA%E7%81%B5%E9%AD%82%E6%8B%B7%E9%97%AE/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com