30 小时不宕机的编程王者:Claude Sonnet 4.5 改写 AI 工作规则_能力_任务_代码 --知识铺
9 月 30 日,Anthropic 抛出的 Claude Sonnet 4.5,这款号称 “能连续工作 30 小时” 的大模型,不仅在编程领域刷新性能纪录,更通过长时任务处理能力的突破,重新定义了 AI 智能体的实用边界 —— 从 “辅助工具” 跃升至 “自主协作伙伴”。
“连续工作 30 小时” 绝非噱头,而是 AI 记忆与任务管理能力的质变。此前 Anthropic 的 Opus 4 能维持 7 小时连续工作已引发惊叹,而 Sonnet 4.5 将这一纪录提升 4 倍多,甚至能自主编写 11000 行代码构建类 Slack 聊天应用。这背后是两大核心技术升级:
一是上下文智能管理系统。通过新增的 “检查点” 功能与 API 记忆工具,模型可自主保存任务进度并一键回滚,同时自动清理冗余信息避免上下文溢出。这种类似人类 “备忘录 + 复盘” 的机制,让它能在数千步操作中保持逻辑连贯。二是子任务协同架构,将复杂项目拆解为可并行的子目标,通过动态资源分配确保长时间运行的稳定性,这在 OSWorld 真实计算机任务测试中体现得淋漓尽致 —— 得分从 Sonnet 4 的 42.2% 飙升至 61.4%,登顶业界第一。
作为 Anthropic 主打优势,Sonnet 4.5 的编程能力再攀高峰。在衡量真实软件工程能力的 SWE-bench Verified 测试中,它以绝对优势登顶,不仅比前代提升 1.8 个百分点,更领先 GPT-5-Codex 达 7.5 个百分点。Replit 内部测试显示,其代码错误率从 Sonnet 4 的 9% 直接降至 0%,这种精度飞跃源于对代码逻辑的深度理解。
更值得关注的是 “工具协同能力” 的进化。通过原生 VS Code 插件与 GitHub Actions 集成,模型可直接在开发环境中完成代码生成、调试、部署全流程,甚至能操控浏览器与表格应用。在金融、医学等专业领域,它的推理能力也实现突破,在 AIME 2025 数学测试中,借助 Python 可达到 100% 准确率,无工具辅助时仍有 87% 表现。
Sonnet 4.5 的颠覆性更体现在 “提质不加价” 的策略上 —— 维持 3 美元 / 百万输入 tokens、15 美元 / 百万输出 tokens 的定价不变,却开放了足以重构开发者生态的核心资源。Claude Agent SDK 的发布,将 Anthropic 内部用于驱动智能体的基础设施全面开放,让开发者能直接复用其长时任务处理与工具调用能力。
这种 “技术下放” 正在引发连锁反应:GitHub Copilot 借助其能力提升跨代码库任务处理效率,Devin 的规划能力也因之显著升级。对企业而言,这意味着原本需要数月的架构工作可压缩至数天;对行业而言,它推动 AI 从 “单点辅助” 走向 “全流程自主”,加速了智能体在软件开发、数据分析等领域的规模化落地。
更难得的是 “能力与安全的平衡”。作为首个按 AI Safety Level 3 框架发布的模型,它通过可解释性技术防御提示注入攻击,同时将正常请求误拒率从 0.15% 降至 0.02%。这种 “大胆创新 + 谨慎防护” 的路线,为行业树立了安全标杆。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai001/post/20251009/30-%E5%B0%8F%E6%97%B6%E4%B8%8D%E5%AE%95%E6%9C%BA%E7%9A%84%E7%BC%96%E7%A8%8B%E7%8E%8B%E8%80%85Claude-Sonnet-4.5-%E6%94%B9%E5%86%99-AI-%E5%B7%A5%E4%BD%9C%E8%A7%84%E5%88%99_%E8%83%BD%E5%8A%9B_%E4%BB%BB%E5%8A%A1_%E4%BB%A3%E7%A0%81/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com