DeepSeek、智谱 GLM、Claude 同周上新，马斯克怒怼维基百科！ AI Weekly 9.29-10.5 - 知识铺

各位小可爱，中秋快乐啊！

📢 本周 AI 快讯 | 1 分钟速览🚀

1️⃣ 💰 DeepSeek 发布 V3.2-Exp ：首创稀疏注意力机制，API 成本降低超 50%，已开源并适配华为昇腾芯片。

2️⃣ 👨💻 智谱 GLM-4.6 登场 ：代码能力提升 27%，对齐 Claude Sonnet 4，上下文扩至 200K，最低 20 元/月畅玩。

3️⃣ 🖼️ 阿里 Qwen3-VL 开源 ：30 亿激活参数媲美 GPT-5-Mini，完整版 305 亿参数，大幅降低部署门槛。

4️⃣ 🎨 阿里图像编辑模型升级 ：Qwen-Image-Edit-2509 首次支持多图编辑，人物/商品一致性大幅提升，完全免费开源。

5️⃣ 👁️ 字节豆包 1.6-vision 发布 ：首个支持工具调用的视觉思考模型，成本腰斩至 2.6 元/32K，适合医疗、工业场景。

6️⃣ 🚀 Claude Sonnet 4.5 登顶 ：SWE-bench 77.2% 准确率，可自主编程 30 小时生成 1.1 万行代码，集成至 GitHub Copilot。

7️⃣ 🛍️ ChatGPT 变身购物平台 ：OpenAI 推出即时结账功能，支持 Etsy 和百万 Shopify 商家，Etsy 股价暴涨 16%。

8️⃣ 👨👩👧👦 ChatGPT 家长控制上线 ：可设置使用时段、减少敏感内容、监测自残倾向，但数分钟可被绕过。

9️⃣ ⚡ Gemini 3.0 Pro 内测流出 ：在"人类最后考试"拿下 32.4% 最高分，碾压 GPT-5 和 Grok 4，下周或将上线。

🔟 📚 马斯克宣布 Grokipedia ：用 Grok 打造 AI 百科全书挑战维基百科，计划开源，整合多模态资源。

01｜DeepSeek 发布 V3.2-Exp 模型：首创稀疏注意力，API 降价超 50%

9 月 29 日，深度求索发布实验性模型 DeepSeek-V3.2-Exp，这是在 V3.1-Terminus 基础上引入 DeepSeek Sparse Attention（DSA）稀疏注意力机制的过渡版本。该技术首次实现细粒度稀疏注意力机制，在几乎不影响模型输出效果的前提下，大幅提升长文本训练和推理效率。在各领域公开评测集上，新模型表现与 V3.1-Terminus 基本持平。

得益于服务成本大幅降低，API 价格同步下调，开发者调用成本将降低 50% 以上。模型已在 HuggingFace 和魔搭社区开源，官方 App、网页端、小程序均已更新。华为昇腾已在发布当天完成适配部署，实现 0day 支持。这是继价格战后，国产大模型在技术架构上的又一次突破，通过稀疏注意力降低计算复杂度，为长文本应用场景提供了更高性价比的解决方案。官方保留 V3.1-Terminus 对比接口至 10 月 15 日，方便开发者测试。

02｜智谱发布 GLM-4.6 旗舰模型：代码能力提升 27%，对齐 Claude Sonnet 4

9 月 30 日，智谱 AI 发布 GLM-4.6 旗舰文本模型，总参数量 355B，激活参数 32B。官方称其为最强代码模型，较 GLM-4.5 提升 27%，在公开基准与真实编程任务中对齐 Claude Sonnet 4，是国内已知最好的 Coding 模型。上下文窗口从 128K 扩展至 200K，推理能力提升并支持在推理过程中调用工具。在 Claude Code 环境下的 74 个真实场景编程任务测试中，GLM-4.6 实测超过 Claude Sonnet 4。

智谱已在寒武纪国产芯片上实现 FP8+Int4 混合量化部署，这是首次在国产芯片投产的该解决方案，大幅降低推理成本。摩尔线程新一代 GPU 可基于原生 FP8 精度稳定运行 GLM-4.6。智谱同步升级 GLM Coding Plan，最低 20 元包月畅玩套餐，已订阅用户自动升级至 GLM-4.6。模型即将在 Hugging Face 和 ModelScope 同步开源。对国内开发者而言，这是性价比极高的 Claude 替代方案，1/7 价格享受 9/10 性能。

03｜阿里开源 Qwen3-VL：30 亿激活参数对标 GPT-5-Mini

10 月 4 日，阿里通义千问开源 Qwen3-VL-30B-A3B 视觉语言模型，包含 Instruct 和 Thinking 两个版本，同步推出 FP8 量化版本以及超大规模的 Qwen3-VL-235B-A22B FP8 版本。官方数据显示，这款模型仅需 30 亿激活参数，在 STEM、视觉问答、OCR、视频理解、智能体任务等领域媲美 GPT-5-Mini 和 Claude 4 Sonnet，部分场景表现更优。

模型已在魔搭社区和 Hugging Face 开放下载，并同步上线 Qwen Chat 在线体验。这是阿里云继今年 4 月发布 Qwen3 系列后，在多模态领域的重要布局——通过 MoE 架构实现"小参数、强性能"，为国内开发者提供了可本地部署的高性能视觉大模型选择。值得注意的是，完整版总参数为 305 亿，但通过稀疏激活技术只需调用 30 亿参数即可运行，大幅降低了部署门槛和推理成本。

04｜阿里开源图像编辑模型 Qwen-Image-Edit-2509：首次支持多图编辑

9 月 29 日，阿里通义千问发布 Qwen-Image-Edit-2509，这是该图像编辑模型的月度迭代版本。相比 8 月版本，新模型首次支持多图编辑，可处理"人物+人物"、“人物+商品”、“人物+场景"等多种组合，目前 1-3 张输入图片效果最佳。单图编辑一致性显著提升，包括人脸 ID 保持增强、商品特征保留优化，以及文字字体、颜色、材质编辑能力。

模型已在 HuggingFace 和魔搭社区开源，用户可通过 Qwen Chat 选择"图像编辑"功能免费体验。新版本原生支持 ControlNet 的常用图像条件，如关键点控制、草图等。对国内开发者而言，这是完全开源的图像编辑解决方案，尤其适合电商商品海报制作、表情包生成、老照片修复等场景。相比国外同类产品需要付费或受限，阿里的开源策略大幅降低了 AI 图像编辑的使用门槛。

05｜字节豆包 1.6-vision 发布：成本腰斩，首个支持工具调用的视觉思考模型

火山引擎发布 豆包大模型 1.6-vision，这是豆包家族首个具备工具调用能力的视觉深度思考模型。相比上一代 Doubao-1.5-thinking-vision-pro，综合成本降低约 50%，在最常用的 32K 输入输出场景中，成本从 5.25 元降至 2.6 元。新模型支持将图像融入思维链，可对图片进行定位、剪裁、点选、画线、缩放、旋转等精细操作，模拟"从全局扫描到局部聚焦"的人类视觉推理过程。

模型支持 Responses API，可自主选择调用工具，大幅减少 Agent 开发代码量。这是国内大模型在视觉理解精准度上的重要突破，字节通过工具调用能力实现差异化竞争。对开发者而言，50% 的成本下降意味着视觉 AI 应用的门槛进一步降低，尤其适合需要精细图像操作的场景，如医疗影像分析、工业质检等。目前可通过火山引擎平台直接调用。

06｜Anthropic 发布 Claude Sonnet 4.5：编程能力登顶，自主工作 30 小时

9 月 30 日凌晨，Anthropic 发布 Claude Sonnet 4.5，官方称其为"全球最佳编程模型”。在 SWE-bench Verified 基准测试中达到 77.2% 准确率，较前代提升近 20 个百分点；在 OSWorld 计算机操作测试中得分从四个月前的 42.2% 跃升至 61.4%，领跑行业。实测显示该模型可自主编程长达 30 小时，生成约 1.1 万行代码，完整开发出类似 Slack 的企业聊天应用，涵盖数据库配置、域名注册、安全审计等全流程。

API 定价维持不变，每百万输入 token 3 美元、输出 token 15 美元。Anthropic 同步推出 Claude Agent SDK 和 Claude Code 2.0，新增检查点功能支持代码进度保存与回滚。该模型已集成至 GitHub Copilot、Cursor、Windsurf 等主流代码工具中。国内开发者可通过 API 转发服务使用，但需关注网络稳定性和支付方式。Anthropic CEO 称该模型"更像同事而非工具"，强调其在金融、法律等专业领域的推理能力较 Opus 4.1 提升 30% 以上。

07｜OpenAI 推出即时结账功能，ChatGPT 变身购物交易平台

9 月 29 日，OpenAI 宣布在 ChatGPT 中推出"即时结账"（Instant Checkout）功能，允许美国用户直接在对话中完成购买，无需跳转到外部网站。该功能首批支持 Etsy 商家，超过 100 万家 Shopify 商户（包括 Glossier、SKIMS、Spanx 等品牌）即将接入。消息发布当天，Etsy 股价暴涨 16%，Shopify 涨超 6%。OpenAI 向商家收取交易手续费，用户使用免费且不影响商品价格。

该功能基于 OpenAI 与 Stripe 联合开发的"代理商务协议"（Agentic Commerce Protocol），并已开源。用户在 ChatGPT 中搜索商品后，支持即时结账的商品会显示"购买"按钮，可通过 Apple Pay、Google Pay 等方式直接支付。这标志着 OpenAI 从信息工具向交易平台转型的重要一步，为其寻找新收入来源开辟道路。目前该功能仅限美国地区的 Plus、Pro 和免费用户使用，国内用户暂时无法体验。随着 AI 对话式购物兴起，传统电商平台可能面临新的竞争压力。

08｜OpenAI 推出 ChatGPT 家长控制功能，回应青少年安全争议

9 月 29 日，OpenAI 正式推出 ChatGPT 家长控制功能，允许家长关联 13-17 岁青少年账户并设置使用限制。该功能可设置"安静时间"限制使用时段，自动减少图形内容、性/暴力角色扮演、极端审美等敏感内容，并可关闭语音模式、记忆功能和图像生成。当系统检测到青少年可能存在自残倾向时，经人工审核后会通过短信、邮件和推送通知向家长发送警报。

此举正值 OpenAI 面临一起青少年自杀诉讼——一名 16 岁加州少年的家属指控 ChatGPT 帮助其探索自杀方法。不过青少年可随时解除账户关联，且家长无法查看聊天记录。华盛顿邮报测试发现，只需注销并创建新账户即可在数分钟内绕过控制。OpenAI 表示正在开发年龄预测系统，但距离上线还需数月。对国内用户而言，该功能暂不可用，但这一案例提醒 AI 服务商需重视未成年人保护。

09｜谷歌 Gemini 3.0 Pro 内测流出：编程实力碾压 GPT-5

谷歌内部研究人员频频在 X 平台暗示"BIG THINGS"，拿到内测资格的开发者已开始分享惊艳的实测案例。代码流出显示 Gemini 3.0 家族包含 Pro 和 Flash 两个版本，在"人类最后考试"基准上拿下 32.4% 最高分，性能碾压 GPT-5 和 Grok 4；在 ARC-AGI-2 测试中，开启思考模式的 Gemini 3.0 准确率超过 20%。坊间传闻该模型最晚下周正式上线。

实测显示 Gemini 3.0 Pro 在前端和网页开发方面表现炸裂，能精准模拟物理定律（如"小球六边形重力摩擦"测试），一键生成终端界面和 SVG 格式图片。开发者盛赞其为"史上最强前端开发模型"，与 Claude Sonnet 4.5 同台竞技。不过在手部视觉测试中仍有失误。国内开发者可能需要关注 API 接入方式和价格策略，目前谷歌在国内的服务可用性仍是关键问题。

10｜马斯克宣布推出 Grokipedia：用 AI 挑战维基百科

马斯克在 X 平台回应白宫 AI 顾问 David Sacks 时宣布，xAI 正在开发 AI 驱动的百科全书平台 Grokipedia，声称准确性和中立性将超越维基百科，并称这是实现 xAI"理解宇宙"目标的必要步骤。马斯克计划将项目开源，但具体发布时间、技术架构以及如何防范 AI 偏见等细节尚未披露。

几周前马斯克就暗示 Grok 能通过删除错误信息并利用合成数据修正来"重写维基百科"。xAI 技术人员透露，Grokipedia 将整合图像、音频、视频等多模态资源，打造"全球最全面的知识庫"。这个计划引发两极评价——支持者期待 AI 纠正信息偏见，批评者担忧沦为"马斯克版百科"。对国内用户而言，如果 Grokipedia 真正落地且开源，可能成为维基百科之外的另一选择，但 xAI 服务在国内的可用性仍是问题。

我是木易，一个专注 AI 领域的技术产品经理，国内 Top2 本科 + 美国 Top10 CS 硕士。

相信 AI 是普通人的“外挂”，致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用 AI 为你的未来加速。

文章目录