9 月 30 日,Anthropic 抛出的 Claude Sonnet 4.5,这款号称 “能连续工作 30 小时” 的大模型,不仅在编程领域刷新性能纪录,更通过长时任务处理能力的突破,重新定义了 AI 智能体的实用边界 —— 从 “辅助工具” 跃升至 “自主协作伙伴”。

“连续工作 30 小时” 绝非噱头,而是 AI 记忆与任务管理能力的质变。此前 Anthropic 的 Opus 4 能维持 7 小时连续工作已引发惊叹,而 Sonnet 4.5 将这一纪录提升 4 倍多,甚至能自主编写 11000 行代码构建类 Slack 聊天应用。这背后是两大核心技术升级:

一是上下文智能管理系统。通过新增的 “检查点” 功能与 API 记忆工具,模型可自主保存任务进度并一键回滚,同时自动清理冗余信息避免上下文溢出。这种类似人类 “备忘录 + 复盘” 的机制,让它能在数千步操作中保持逻辑连贯。二是子任务协同架构,将复杂项目拆解为可并行的子目标,通过动态资源分配确保长时间运行的稳定性,这在 OSWorld 真实计算机任务测试中体现得淋漓尽致 —— 得分从 Sonnet 4 的 42.2% 飙升至 61.4%,登顶业界第一。

作为 Anthropic 主打优势,Sonnet 4.5 的编程能力再攀高峰。在衡量真实软件工程能力的 SWE-bench Verified 测试中,它以绝对优势登顶,不仅比前代提升 1.8 个百分点,更领先 GPT-5-Codex 达 7.5 个百分点。Replit 内部测试显示,其代码错误率从 Sonnet 4 的 9% 直接降至 0%,这种精度飞跃源于对代码逻辑的深度理解。

更值得关注的是 “工具协同能力” 的进化。通过原生 VS Code 插件与 GitHub Actions 集成,模型可直接在开发环境中完成代码生成、调试、部署全流程,甚至能操控浏览器与表格应用。在金融、医学等专业领域,它的推理能力也实现突破,在 AIME 2025 数学测试中,借助 Python 可达到 100% 准确率,无工具辅助时仍有 87% 表现。

Sonnet 4.5 的颠覆性更体现在 “提质不加价” 的策略上 —— 维持 3 美元 / 百万输入 tokens、15 美元 / 百万输出 tokens 的定价不变,却开放了足以重构开发者生态的核心资源。Claude Agent SDK 的发布,将 Anthropic 内部用于驱动智能体的基础设施全面开放,让开发者能直接复用其长时任务处理与工具调用能力。

这种 “技术下放” 正在引发连锁反应:GitHub Copilot 借助其能力提升跨代码库任务处理效率,Devin 的规划能力也因之显著升级。对企业而言,这意味着原本需要数月的架构工作可压缩至数天;对行业而言,它推动 AI 从 “单点辅助” 走向 “全流程自主”,加速了智能体在软件开发、数据分析等领域的规模化落地。

更难得的是 “能力与安全的平衡”。作为首个按 AI Safety Level 3 框架发布的模型,它通过可解释性技术防御提示注入攻击,同时将正常请求误拒率从 0.15% 降至 0.02%。这种 “大胆创新 + 谨慎防护” 的路线,为行业树立了安全标杆。

返回搜狐,查看更多