知识铺的博客

专注于Android、Java、Go语言(golang)、移动互联网、项目管理、软件架构

文章目录

Claude Sonnet 4.5来啦，连续30小时编程，依旧领先 - 知识铺

2025年10月5日

| 阅读

今天凌晨 Claude 发布 Claude Sonnet 4.5——「世界上最好的编码模型」（Claude 称）。

真不愧是国庆，前脚 DeepSeek 刚刚抛出 v3.2-Exp，后脚 Claude 就把自家新作甩出来。

这次不只是模型升级，API 也同步带来了一整套新能力：新增了上下文编辑和记忆工具，让代理能跑得更久、处理更复杂的任务。

在 Claude 应用里，代码执行和文件创建（表格、幻灯片、文档）被直接拉进对话；Chrome 扩展也向 Max 用户开放。

我们最关心的价格没变！Claude Sonnet 4.5 直接替代 Sonnet 4，开发者调用时只需在 Claude API 里写上 claude-sonnet-4-5 即可，费用依然是输入每百万 token 3 美元、输出 15 美元。而和上一代旗舰 Opus 4.1相比，成本足足压低了5倍。

下面我们一起来看看，Claude Sonnet 4.5 到底凭什么敢喊出「最强编码模型」的口号。

性能全面刷新天花板。

这次更新，可以用四个字形容：全面碾压。

Claude Sonnet 4.5 在几乎所有维度都超过了 Claude Sonnet 4 和 Opus 4.1，有的地方甚至直接把 GPT-5、Gemini 2.5 Pro 拉开差距。

最亮眼的成绩单：

在 SWE-bench Verified 真实软件编码评测中，Sonnet 4.5 稳坐头名，且能在复杂多步骤任务中保持 超过 30 小时的专注度，远超 GPT-5-Codex 的 7 小时。
在 OSWorld 真实电脑任务中，它把成功率从 42.2% 一口气拉到 **61.4%，**四个月跨了近 20 个百分点。
代码修复准确率 82%，领跑全场；数学推理直接跃入第一梯队。

并且，它的提升不仅限于编程和数学，在 金融、法律、医学、STEM 等专业领域，对比前代模型同样实现了显著飞跃。

安全：更聪明，也更难忽悠

如果说性能测试展示了 Claude Sonnet 4.5 的硬实力，那安全与对齐部分就是它的软约束。这次官方用了很强的表述：“我们迄今为止最一致的模型”。

什么意思？看这张图就懂了。

图里显示的是「失调行为评分」（Misaligned behavior scores，越低越好）。

所谓「失调行为」，包括讨好迁就（sycophancy）、欺骗（deception）、权力欲（power-seeking）、鼓励妄想（encouragement of delusions）、以及服从有害指令。简单说，就是那些让人不安的 AI 行为。

结果是，Claude Sonnet 4.5 的分数最低，比前代 Sonnet 4 和 Opus 4.1 都低一大截。它比 GPT-5 还要更少出格，尤其在“拍马屁”和“鼓励妄想”这类风险点上收紧得很明显。

而且，Anthropic 这次还特别强调了 Sonnet 4.5 在防御 Prompt Injection（提示注入攻击） 这方面上的进步。

安全级别上，这次它被归入 AI 安全等级 3（ASL-3），意味着已经要按“核级别”标准来设防。具体做法包括：

增加了一层「分类器」过滤器，专门拦截和化学、生物、放射、核（CBRN）相关的风险内容；
同时减少误报：和今年 5 月的 Opus 4 相比，误报率降低了一半，如果追溯到最初设计阶段，已经降了整整 10 倍。

Claude Agent SDK：开发者的大礼包

这应该是开发者们的福音了。

过去半年，Anthropic 一直在打磨 Claude Code，踩过无数坑：

长任务里，AI 该怎么记忆？别做到一半忘了前面干了啥。
权限系统怎么设计？既要让 AI 有足够自主性，又不能放任它“随心所欲”。
多个子代理如何协作？避免各干各的，最后拼不起来。

这些难题，他们一个个啃下来，才有了今天的 Claude Code。而现在，他们把这套底层架构打包成了 SDK，开放出来给所有开发者。

Imagine with Claude：一句话造软件

和 Sonnet 4.5 一起登场的，还有一个小彩蛋——Imagine with Claude。

这是一个临时研究预览，开放五天，Max 用户可以体验。玩法很简单：你让 Claude 帮你做一个软件，它不是调用预设模块，而是现场现写，边聊边造。

地址：claude.ai/imagine

当强大的模型和完善的基础设施结合在一起，软件开发的门槛可能会低到“一句话”的程度。

从性能到安全，从 SDK 到 Imagine with Claude，这次的 Sonnet 4.5 其实透露了一个信号：AI 已经从“会说”走向了“会干”，从单纯的模型变成了可以搭建生态的底层基建。

所以，Claude 4.5 背后，是真正“AI 下沉到生产力”的加速信号。

原文作者：知识铺
原文链接：https://index.zshipu.com/ai/post/202510/Claude-Sonnet-4.5%E6%9D%A5%E5%95%A6%E8%BF%9E%E7%BB%AD30%E5%B0%8F%E6%97%B6%E7%BC%96%E7%A8%8B%E4%BE%9D%E6%97%A7%E9%A2%86%E5%85%88/
版权声明：本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可，非商业转载请注明出处（作者，原文链接），商业转载请联系作者获得授权。
免责声明：本页面内容均来源于站内编辑发布，部分信息来源互联网，并不意味着本站赞同其观点或者证实其内容的真实性，如涉及版权等问题，请立即联系客服进行更改或删除，保证您的合法权益。转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com

See Also