各位小可爱,中秋快乐啊!

📢 本周 AI 快讯 | 1 分钟速览🚀

1️⃣ 💰 DeepSeek 发布 V3.2-Exp :首创稀疏注意力机制,API 成本降低超 50%,已开源并适配华为昇腾芯片。

2️⃣ 👨💻 智谱 GLM-4.6 登场 :代码能力提升 27%,对齐 Claude Sonnet 4,上下文扩至 200K,最低 20 元/月畅玩。

3️⃣ 🖼️ 阿里 Qwen3-VL 开源 :30 亿激活参数媲美 GPT-5-Mini,完整版 305 亿参数,大幅降低部署门槛。

4️⃣ 🎨 阿里图像编辑模型升级 :Qwen-Image-Edit-2509 首次支持多图编辑,人物/商品一致性大幅提升,完全免费开源。

5️⃣ 👁️ 字节豆包 1.6-vision 发布 :首个支持工具调用的视觉思考模型,成本腰斩至 2.6 元/32K,适合医疗、工业场景。

6️⃣ 🚀 Claude Sonnet 4.5 登顶 :SWE-bench 77.2% 准确率,可自主编程 30 小时生成 1.1 万行代码,集成至 GitHub Copilot。

7️⃣ 🛍️ ChatGPT 变身购物平台 :OpenAI 推出即时结账功能,支持 Etsy 和百万 Shopify 商家,Etsy 股价暴涨 16%。

8️⃣ 👨👩👧👦 ChatGPT 家长控制上线 :可设置使用时段、减少敏感内容、监测自残倾向,但数分钟可被绕过。

9️⃣ ⚡ Gemini 3.0 Pro 内测流出 :在"人类最后考试"拿下 32.4% 最高分,碾压 GPT-5 和 Grok 4,下周或将上线。

🔟 📚 马斯克宣布 Grokipedia :用 Grok 打造 AI 百科全书挑战维基百科,计划开源,整合多模态资源。


01|DeepSeek 发布 V3.2-Exp 模型:首创稀疏注意力,API 降价超 50%

9 月 29 日,深度求索发布实验性模型 DeepSeek-V3.2-Exp,这是在 V3.1-Terminus 基础上引入 DeepSeek Sparse Attention(DSA)稀疏注意力机制的过渡版本。该技术首次实现细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,大幅提升长文本训练和推理效率。在各领域公开评测集上,新模型表现与 V3.1-Terminus 基本持平。

图片

得益于服务成本大幅降低,API 价格同步下调,开发者调用成本将降低 50% 以上。模型已在 HuggingFace 和魔搭社区开源,官方 App、网页端、小程序均已更新。华为昇腾已在发布当天完成适配部署,实现 0day 支持。这是继价格战后,国产大模型在技术架构上的又一次突破,通过稀疏注意力降低计算复杂度,为长文本应用场景提供了更高性价比的解决方案。官方保留 V3.1-Terminus 对比接口至 10 月 15 日,方便开发者测试。


02|智谱发布 GLM-4.6 旗舰模型:代码能力提升 27%,对齐 Claude Sonnet 4

9 月 30 日,智谱 AI 发布 GLM-4.6 旗舰文本模型,总参数量 355B,激活参数 32B。官方称其为最强代码模型,较 GLM-4.5 提升 27%,在公开基准与真实编程任务中对齐 Claude Sonnet 4,是国内已知最好的 Coding 模型。上下文窗口从 128K 扩展至 200K,推理能力提升并支持在推理过程中调用工具。在 Claude Code 环境下的 74 个真实场景编程任务测试中,GLM-4.6 实测超过 Claude Sonnet 4

图片

智谱已在寒武纪国产芯片上实现 FP8+Int4 混合量化部署,这是首次在国产芯片投产的该解决方案,大幅降低推理成本。摩尔线程新一代 GPU 可基于原生 FP8 精度稳定运行 GLM-4.6。智谱同步升级 GLM Coding Plan,最低 20 元包月畅玩套餐,已订阅用户自动升级至 GLM-4.6。模型即将在 Hugging Face 和 ModelScope 同步开源。对国内开发者而言,这是性价比极高的 Claude 替代方案,1/7 价格享受 9/10 性能。


03|阿里开源 Qwen3-VL:30 亿激活参数对标 GPT-5-Mini

10 月 4 日,阿里通义千问开源 Qwen3-VL-30B-A3B 视觉语言模型,包含 Instruct 和 Thinking 两个版本,同步推出 FP8 量化版本以及超大规模的 Qwen3-VL-235B-A22B FP8 版本。官方数据显示,这款模型仅需 30 亿激活参数,在 STEM、视觉问答、OCR、视频理解、智能体任务等领域媲美 GPT-5-Mini 和 Claude 4 Sonnet,部分场景表现更优。

图片

模型已在魔搭社区和 Hugging Face 开放下载,并同步上线 Qwen Chat 在线体验。这是阿里云继今年 4 月发布 Qwen3 系列后,在多模态领域的重要布局——通过 MoE 架构实现"小参数、强性能",为国内开发者提供了可本地部署的高性能视觉大模型选择。值得注意的是,完整版总参数为 305 亿,但通过稀疏激活技术只需调用 30 亿参数即可运行,大幅降低了部署门槛和推理成本。


04|阿里开源图像编辑模型 Qwen-Image-Edit-2509:首次支持多图编辑

9 月 29 日,阿里通义千问发布 Qwen-Image-Edit-2509,这是该图像编辑模型的月度迭代版本。相比 8 月版本,新模型首次支持多图编辑,可处理"人物+人物"、“人物+商品”、“人物+场景"等多种组合,目前 1-3 张输入图片效果最佳。单图编辑一致性显著提升,包括人脸 ID 保持增强、商品特征保留优化,以及文字字体、颜色、材质编辑能力。

图片

模型已在 HuggingFace 和魔搭社区开源,用户可通过 Qwen Chat 选择"图像编辑"功能免费体验。新版本原生支持 ControlNet 的常用图像条件,如关键点控制、草图等。对国内开发者而言,这是完全开源的图像编辑解决方案,尤其适合电商商品海报制作、表情包生成、老照片修复等场景。相比国外同类产品需要付费或受限,阿里的开源策略大幅降低了 AI 图像编辑的使用门槛。


05|字节豆包 1.6-vision 发布:成本腰斩,首个支持工具调用的视觉思考模型

火山引擎发布 豆包大模型 1.6-vision,这是豆包家族首个具备工具调用能力的视觉深度思考模型。相比上一代 Doubao-1.5-thinking-vision-pro,综合成本降低约 50%,在最常用的 32K 输入输出场景中,成本从 5.25 元降至 2.6 元。新模型支持将图像融入思维链,可对图片进行定位、剪裁、点选、画线、缩放、旋转等精细操作,模拟"从全局扫描到局部聚焦"的人类视觉推理过程。

图片

模型支持 Responses API,可自主选择调用工具,大幅减少 Agent 开发代码量。这是国内大模型在视觉理解精准度上的重要突破,字节通过工具调用能力实现差异化竞争。对开发者而言,50% 的成本下降意味着视觉 AI 应用的门槛进一步降低,尤其适合需要精细图像操作的场景,如医疗影像分析、工业质检等。目前可通过火山引擎平台直接调用。


06|Anthropic 发布 Claude Sonnet 4.5:编程能力登顶,自主工作 30 小时

9 月 30 日凌晨,Anthropic 发布 Claude Sonnet 4.5,官方称其为"全球最佳编程模型”。在 SWE-bench Verified 基准测试中达到 77.2% 准确率,较前代提升近 20 个百分点;在 OSWorld 计算机操作测试中得分从四个月前的 42.2% 跃升至 61.4%,领跑行业。实测显示该模型可自主编程长达 30 小时,生成约 1.1 万行代码,完整开发出类似 Slack 的企业聊天应用,涵盖数据库配置、域名注册、安全审计等全流程。

图片

API 定价维持不变,每百万输入 token 3 美元、输出 token 15 美元。Anthropic 同步推出 Claude Agent SDK 和 Claude Code 2.0,新增检查点功能支持代码进度保存与回滚。该模型已集成至 GitHub Copilot、Cursor、Windsurf 等主流代码工具中。国内开发者可通过 API 转发服务使用,但需关注网络稳定性和支付方式。Anthropic CEO 称该模型"更像同事而非工具",强调其在金融、法律等专业领域的推理能力较 Opus 4.1 提升 30% 以上。


07|OpenAI 推出即时结账功能,ChatGPT 变身购物交易平台

9 月 29 日,OpenAI 宣布在 ChatGPT 中推出"即时结账"(Instant Checkout)功能,允许美国用户直接在对话中完成购买,无需跳转到外部网站。该功能首批支持 Etsy 商家,超过 100 万家 Shopify 商户(包括 Glossier、SKIMS、Spanx 等品牌)即将接入。消息发布当天,Etsy 股价暴涨 16%,Shopify 涨超 6%。OpenAI 向商家收取交易手续费,用户使用免费且不影响商品价格。

图片

该功能基于 OpenAI 与 Stripe 联合开发的"代理商务协议"(Agentic Commerce Protocol),并已开源。用户在 ChatGPT 中搜索商品后,支持即时结账的商品会显示"购买"按钮,可通过 Apple Pay、Google Pay 等方式直接支付。这标志着 OpenAI 从信息工具向交易平台转型的重要一步,为其寻找新收入来源开辟道路。目前该功能仅限美国地区的 Plus、Pro 和免费用户使用,国内用户暂时无法体验。随着 AI 对话式购物兴起,传统电商平台可能面临新的竞争压力。


08|OpenAI 推出 ChatGPT 家长控制功能,回应青少年安全争议

9 月 29 日,OpenAI 正式推出 ChatGPT 家长控制功能,允许家长关联 13-17 岁青少年账户并设置使用限制。该功能可设置"安静时间"限制使用时段,自动减少图形内容、性/暴力角色扮演、极端审美等敏感内容,并可关闭语音模式、记忆功能和图像生成。当系统检测到青少年可能存在自残倾向时,经人工审核后会通过短信、邮件和推送通知向家长发送警报。

图片

此举正值 OpenAI 面临一起青少年自杀诉讼——一名 16 岁加州少年的家属指控 ChatGPT 帮助其探索自杀方法。不过青少年可随时解除账户关联,且家长无法查看聊天记录。华盛顿邮报测试发现,只需注销并创建新账户即可在数分钟内绕过控制。OpenAI 表示正在开发年龄预测系统,但距离上线还需数月。对国内用户而言,该功能暂不可用,但这一案例提醒 AI 服务商需重视未成年人保护。


09|谷歌 Gemini 3.0 Pro 内测流出:编程实力碾压 GPT-5

谷歌内部研究人员频频在 X 平台暗示"BIG THINGS",拿到内测资格的开发者已开始分享惊艳的实测案例。代码流出显示 Gemini 3.0 家族包含 Pro 和 Flash 两个版本,在"人类最后考试"基准上拿下 32.4% 最高分,性能碾压 GPT-5 和 Grok 4;在 ARC-AGI-2 测试中,开启思考模式的 Gemini 3.0 准确率超过 20%。坊间传闻该模型最晚下周正式上线。

图片

实测显示 Gemini 3.0 Pro 在前端和网页开发方面表现炸裂,能精准模拟物理定律(如"小球六边形重力摩擦"测试),一键生成终端界面和 SVG 格式图片。开发者盛赞其为"史上最强前端开发模型",与 Claude Sonnet 4.5 同台竞技。不过在手部视觉测试中仍有失误。国内开发者可能需要关注 API 接入方式和价格策略,目前谷歌在国内的服务可用性仍是关键问题。


10|马斯克宣布推出 Grokipedia:用 AI 挑战维基百科

马斯克在 X 平台回应白宫 AI 顾问 David Sacks 时宣布,xAI 正在开发 AI 驱动的百科全书平台 Grokipedia,声称准确性和中立性将超越维基百科,并称这是实现 xAI"理解宇宙"目标的必要步骤。马斯克计划将项目开源,但具体发布时间、技术架构以及如何防范 AI 偏见等细节尚未披露。

图片

几周前马斯克就暗示 Grok 能通过删除错误信息并利用合成数据修正来"重写维基百科"。xAI 技术人员透露,Grokipedia 将整合图像、音频、视频等多模态资源,打造"全球最全面的知识庫"。这个计划引发两极评价——支持者期待 AI 纠正信息偏见,批评者担忧沦为"马斯克版百科"。对国内用户而言,如果 Grokipedia 真正落地且开源,可能成为维基百科之外的另一选择,但 xAI 服务在国内的可用性仍是问题。


我是木易,一个专注 AI 领域的技术产品经理,国内 Top2 本科 + 美国 Top10 CS 硕士。

相信 AI 是普通人的“外挂”,致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用 AI 为你的未来加速。


精选推荐

  1. 『保姆级教程』2025 最新 ChatGPT 注册教程来了!无需手机号,三分钟搞定!

  2. 『保姆级教程』55 元开通 ChatGPT Plus,无需信用卡,5 分钟搞定!

  3. 『保姆级教程』安卓开通 ChatGPT Plus,一张国内信用卡搞定!