Claude Sonnet 4.5来啦,连续30小时编程,依旧领先 - 知识铺
今天凌晨 Claude 发布 Claude Sonnet 4.5——「世界上最好的编码模型」(Claude 称)。
真不愧是国庆,前脚 DeepSeek 刚刚抛出 v3.2-Exp,后脚 Claude 就把自家新作甩出来。
这次不只是模型升级,API 也同步带来了一整套新能力:新增了上下文编辑和记忆工具,让代理能跑得更久、处理更复杂的任务。
在 Claude 应用里,代码执行和文件创建(表格、幻灯片、文档)被直接拉进对话;Chrome 扩展也向 Max 用户开放。
我们最关心的价格没变!Claude Sonnet 4.5 直接替代 Sonnet 4,开发者调用时只需在 Claude API 里写上 claude-sonnet-4-5 即可,费用依然是输入每百万 token 3 美元、输出 15 美元。而和上一代旗舰 Opus 4.1相比,成本足足压低了5倍。
下面我们一起来看看,Claude Sonnet 4.5 到底凭什么敢喊出「最强编码模型」的口号。
性能全面刷新天花板。
这次更新,可以用四个字形容:全面碾压。
Claude Sonnet 4.5 在几乎所有维度都超过了 Claude Sonnet 4 和 Opus 4.1,有的地方甚至直接把 GPT-5、Gemini 2.5 Pro 拉开差距。
最亮眼的成绩单:
-
在 SWE-bench Verified 真实软件编码评测中,Sonnet 4.5 稳坐头名,且能在复杂多步骤任务中保持 超过 30 小时的专注度,远超 GPT-5-Codex 的 7 小时。
-
在 OSWorld 真实电脑任务中,它把成功率从 42.2% 一口气拉到 **61.4%,**四个月跨了近 20 个百分点。
-
代码修复准确率 82%,领跑全场;数学推理直接跃入第一梯队。
并且,它的提升不仅限于编程和数学,在 金融、法律、医学、STEM 等专业领域,对比前代模型同样实现了显著飞跃。
安全:更聪明,也更难忽悠
如果说性能测试展示了 Claude Sonnet 4.5 的硬实力,那安全与对齐部分就是它的软约束。这次官方用了很强的表述:“我们迄今为止最一致的模型”。
什么意思?看这张图就懂了。
图里显示的是「失调行为评分」(Misaligned behavior scores,越低越好)。
所谓「失调行为」,包括讨好迁就(sycophancy)、欺骗(deception)、权力欲(power-seeking)、鼓励妄想(encouragement of delusions)、以及服从有害指令。简单说,就是那些让人不安的 AI 行为。
结果是,Claude Sonnet 4.5 的分数最低,比前代 Sonnet 4 和 Opus 4.1 都低一大截。它比 GPT-5 还要更少出格,尤其在“拍马屁”和“鼓励妄想”这类风险点上收紧得很明显。
而且,Anthropic 这次还特别强调了 Sonnet 4.5 在防御 Prompt Injection(提示注入攻击) 这方面上的进步。
安全级别上,这次它被归入 AI 安全等级 3(ASL-3),意味着已经要按“核级别”标准来设防。具体做法包括:
-
增加了一层「分类器」过滤器,专门拦截和化学、生物、放射、核(CBRN)相关的风险内容;
-
同时减少误报:和今年 5 月的 Opus 4 相比,误报率降低了一半,如果追溯到最初设计阶段,已经降了整整 10 倍。
Claude Agent SDK:开发者的大礼包
这应该是开发者们的福音了。
过去半年,Anthropic 一直在打磨 Claude Code,踩过无数坑:
-
长任务里,AI 该怎么记忆?别做到一半忘了前面干了啥。
-
权限系统怎么设计?既要让 AI 有足够自主性,又不能放任它“随心所欲”。
-
多个子代理如何协作?避免各干各的,最后拼不起来。
这些难题,他们一个个啃下来,才有了今天的 Claude Code。而现在,他们把这套底层架构打包成了 SDK,开放出来给所有开发者。
Imagine with Claude:一句话造软件
和 Sonnet 4.5 一起登场的,还有一个小彩蛋——Imagine with Claude。
这是一个临时研究预览,开放五天,Max 用户可以体验。玩法很简单:你让 Claude 帮你做一个软件,它不是调用预设模块,而是现场现写,边聊边造。
地址:claude.ai/imagine
当强大的模型和完善的基础设施结合在一起,软件开发的门槛可能会低到“一句话”的程度。
从性能到安全,从 SDK 到 Imagine with Claude,这次的 Sonnet 4.5 其实透露了一个信号:AI 已经从“会说”走向了“会干”,从单纯的模型变成了可以搭建生态的底层基建。
所以,Claude 4.5 背后,是真正“AI 下沉到生产力”的加速信号。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai/post/202510/Claude-Sonnet-4.5%E6%9D%A5%E5%95%A6%E8%BF%9E%E7%BB%AD30%E5%B0%8F%E6%97%B6%E7%BC%96%E7%A8%8B%E4%BE%9D%E6%97%A7%E9%A2%86%E5%85%88/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com