图片

今天凌晨 Claude 发布 Claude Sonnet 4.5——「世界上最好的编码模型」(Claude 称)。

图片

真不愧是国庆,前脚 DeepSeek 刚刚抛出 v3.2-Exp,后脚 Claude 就把自家新作甩出来。

这次不只是模型升级,API 也同步带来了一整套新能力:新增了上下文编辑和记忆工具,让代理能跑得更久、处理更复杂的任务。

在 Claude 应用里,代码执行和文件创建(表格、幻灯片、文档)被直接拉进对话;Chrome 扩展也向 Max 用户开放。

我们最关心的价格没变!Claude Sonnet 4.5 直接替代 Sonnet 4,开发者调用时只需在 Claude API 里写上 claude-sonnet-4-5 即可,费用依然是输入每百万 token 3 美元、输出 15 美元。而和上一代旗舰 Opus 4.1相比,成本足足压低了5倍。

下面我们一起来看看,Claude Sonnet 4.5 到底凭什么敢喊出「最强编码模型」的口号。

性能全面刷新天花板。

这次更新,可以用四个字形容:全面碾压

Claude Sonnet 4.5 在几乎所有维度都超过了 Claude Sonnet 4 和 Opus 4.1,有的地方甚至直接把 GPT-5、Gemini 2.5 Pro 拉开差距。

图片

最亮眼的成绩单:

  • 在 SWE-bench Verified 真实软件编码评测中,Sonnet 4.5 稳坐头名,且能在复杂多步骤任务中保持 超过 30 小时的专注度,远超 GPT-5-Codex 的 7 小时。

  • 在 OSWorld 真实电脑任务中,它把成功率从 42.2% 一口气拉到 **61.4%,**四个月跨了近 20 个百分点。

  • 代码修复准确率 82%,领跑全场;数学推理直接跃入第一梯队。

并且,它的提升不仅限于编程和数学,在 金融、法律、医学、STEM 等专业领域,对比前代模型同样实现了显著飞跃。

图片

图片
图片

图片
图片

安全:更聪明,也更难忽悠

如果说性能测试展示了 Claude Sonnet 4.5 的硬实力,那安全与对齐部分就是它的软约束。这次官方用了很强的表述:“我们迄今为止最一致的模型”。

什么意思?看这张图就懂了。

图片

图里显示的是「失调行为评分」(Misaligned behavior scores,越低越好)。

所谓「失调行为」,包括讨好迁就(sycophancy)、欺骗(deception)、权力欲(power-seeking)、鼓励妄想(encouragement of delusions)、以及服从有害指令。简单说,就是那些让人不安的 AI 行为。

结果是,Claude Sonnet 4.5 的分数最低,比前代 Sonnet 4 和 Opus 4.1 都低一大截。它比 GPT-5 还要更少出格,尤其在“拍马屁”和“鼓励妄想”这类风险点上收紧得很明显。

而且,Anthropic 这次还特别强调了 Sonnet 4.5 在防御 Prompt Injection(提示注入攻击) 这方面上的进步。

安全级别上,这次它被归入 AI 安全等级 3(ASL-3),意味着已经要按“核级别”标准来设防。具体做法包括:

  • 增加了一层「分类器」过滤器,专门拦截和化学、生物、放射、核(CBRN)相关的风险内容;

  • 同时减少误报:和今年 5 月的 Opus 4 相比,误报率降低了一半,如果追溯到最初设计阶段,已经降了整整 10 倍。

Claude Agent SDK:开发者的大礼包

这应该是开发者们的福音了。

过去半年,Anthropic 一直在打磨 Claude Code,踩过无数坑:

  • 长任务里,AI 该怎么记忆?别做到一半忘了前面干了啥。

  • 权限系统怎么设计?既要让 AI 有足够自主性,又不能放任它“随心所欲”。

  • 多个子代理如何协作?避免各干各的,最后拼不起来。

这些难题,他们一个个啃下来,才有了今天的 Claude Code。而现在,他们把这套底层架构打包成了 SDK,开放出来给所有开发者

Imagine with Claude:一句话造软件

和 Sonnet 4.5 一起登场的,还有一个小彩蛋——Imagine with Claude

图片

这是一个临时研究预览,开放五天,Max 用户可以体验。玩法很简单:你让 Claude 帮你做一个软件,它不是调用预设模块,而是现场现写,边聊边造。

地址:claude.ai/imagine

当强大的模型和完善的基础设施结合在一起,软件开发的门槛可能会低到“一句话”的程度。

从性能到安全,从 SDK 到 Imagine with Claude,这次的 Sonnet 4.5 其实透露了一个信号:AI 已经从“会说”走向了“会干”,从单纯的模型变成了可以搭建生态的底层基建。

所以,Claude 4.5 背后,是真正“AI 下沉到生产力”的加速信号。

图片

图片

图片