30 小时不宕机的编程王者：Claude Sonnet 4.5 改写 AI 工作规则_能力_任务_代码 --知识铺

9 月 30 日，Anthropic 抛出的 Claude Sonnet 4.5，这款号称 “能连续工作 30 小时” 的大模型，不仅在编程领域刷新性能纪录，更通过长时任务处理能力的突破，重新定义了 AI 智能体的实用边界 —— 从 “辅助工具” 跃升至 “自主协作伙伴”。

“连续工作 30 小时” 绝非噱头，而是 AI 记忆与任务管理能力的质变。此前 Anthropic 的 Opus 4 能维持 7 小时连续工作已引发惊叹，而 Sonnet 4.5 将这一纪录提升 4 倍多，甚至能自主编写 11000 行代码构建类 Slack 聊天应用。这背后是两大核心技术升级：

一是上下文智能管理系统。通过新增的 “检查点” 功能与 API 记忆工具，模型可自主保存任务进度并一键回滚，同时自动清理冗余信息避免上下文溢出。这种类似人类 “备忘录 + 复盘” 的机制，让它能在数千步操作中保持逻辑连贯。二是子任务协同架构，将复杂项目拆解为可并行的子目标，通过动态资源分配确保长时间运行的稳定性，这在 OSWorld 真实计算机任务测试中体现得淋漓尽致 —— 得分从 Sonnet 4 的 42.2% 飙升至 61.4%，登顶业界第一。

作为 Anthropic 主打优势，Sonnet 4.5 的编程能力再攀高峰。在衡量真实软件工程能力的 SWE-bench Verified 测试中，它以绝对优势登顶，不仅比前代提升 1.8 个百分点，更领先 GPT-5-Codex 达 7.5 个百分点。Replit 内部测试显示，其代码错误率从 Sonnet 4 的 9% 直接降至 0%，这种精度飞跃源于对代码逻辑的深度理解。

更值得关注的是 “工具协同能力” 的进化。通过原生 VS Code 插件与 GitHub Actions 集成，模型可直接在开发环境中完成代码生成、调试、部署全流程，甚至能操控浏览器与表格应用。在金融、医学等专业领域，它的推理能力也实现突破，在 AIME 2025 数学测试中，借助 Python 可达到 100% 准确率，无工具辅助时仍有 87% 表现。

Sonnet 4.5 的颠覆性更体现在 “提质不加价” 的策略上 —— 维持 3 美元 / 百万输入 tokens、15 美元 / 百万输出 tokens 的定价不变，却开放了足以重构开发者生态的核心资源。Claude Agent SDK 的发布，将 Anthropic 内部用于驱动智能体的基础设施全面开放，让开发者能直接复用其长时任务处理与工具调用能力。

这种 “技术下放” 正在引发连锁反应：GitHub Copilot 借助其能力提升跨代码库任务处理效率，Devin 的规划能力也因之显著升级。对企业而言，这意味着原本需要数月的架构工作可压缩至数天；对行业而言，它推动 AI 从 “单点辅助” 走向 “全流程自主”，加速了智能体在软件开发、数据分析等领域的规模化落地。

更难得的是 “能力与安全的平衡”。作为首个按 AI Safety Level 3 框架发布的模型，它通过可解释性技术防御提示注入攻击，同时将正常请求误拒率从 0.15% 降至 0.02%。这种 “大胆创新 + 谨慎防护” 的路线，为行业树立了安全标杆。

返回搜狐，查看更多