突发，Anthropic发布Claude4.5，最强编程模型来了！ - 知识铺

内容｜Max

编辑｜Max

刚刚，Anthropic发布了新一代大模型 Claude Sonnet 4.5，并直接称其为 “全球最好的编程模型” 。

这不仅是模型日常迭代的更新，更是 Anthropic 在 AI 竞赛中维持自己编程领域优势最重要的一张牌。

但比性能更值得关注的，是它揭示的 AI 模型复杂性的新维度。

Claude 4.5 的核心武器是代码能力。

在衡量真实世界编程能力的权威基准 SWE-bench Verified 上，Sonnet 4.5 取得了 82.0% 的准确率，超过了其前代 Opus 4.1 (79.4%)，也领先GPT-5 (72.8%) 和 Gemini 2.5 Pro (67.2%)。

这让它在软件工程领域站上了新的高点。

它的优势不止于此。

在更考验自主性的“智能体终端编码”（Agentic terminal coding）测试中，Sonnet 4.5 拿到 50.0% 的分数，同样领先所有对手。

在模拟真实计算机操作的 OSWorld 测试中，它的得分从前代模型的 42.2% 跃升至 61.4%，展现了强大的Agent能力。

而在专业性极强的金融分析领域，它的表现更为突出，不仅在 Finance Agent 基准上以 55.3% 的分数大幅领先，在与基线的胜率对比中更是达到了 72%。

这种性能提升已经在一线开发者里得到了验证。

Cursor 的首席执行官 Michael Truell 表示：“我们见证了 Claude Sonnet 4.5 的卓越编码性能，并在长期任务方面取得了显著提升。这进一步印证了众多使用 Cursor 的开发者选择 Claude 来解决最复杂问题的原因。”

GitHub 的首席产品官 Mario Rodriguez 也给出了积极评价：“Claude Sonnet 4.5 增强了 GitHub Copilot 的核心优势。我们的初步评估表明，多步推理和代码理解能力显著提升，使 Copilot 的代理体验能够更好地处理复杂的、跨代码库的任务。”

来自行业领导者的背书，证实了 Sonnet 4.5 的能力并非停留在纸面跑分，而是已经转化为实际的生产力。

为了实现这种高质量输出，Anthropic 延续了之前的一个重要的产品设计：Sonnet 4.5 是一个“混合推理模型”。

它提供了一种“扩展思考模式”，让开发者可以在速度和质量之间做选择。

当性能和准确性比延迟更重要时——比如在处理复杂推理、多步骤编码或深度研究项目时——就可以激活这个模式，模型会花更长时间思考并输出其“思维过程”。

这是一种产品上的取舍，把对模型能力的控制权交还给开发者。

Claude4.5还有另一个关键提升：诚实度。

在处理包含错误前提的问题时，Sonnet 4.5 的“不诚实率”仅为 6.90%，远低于前代。它更倾向于纠正用户的错误，而不是盲目附和。

在处理用户表达明显妄想的敏感问题时，其“谄媚”行为也急剧下降。

这让它作为信息工具的可靠性大大提升。

Claude 4.5 的能力在网络安全领域达到了一个令人不安的新高度。

这一点对于从事安全领域研究和开发的专业人士来说尤其震撼。

因为模型不仅能用于防御，也可以被用来进行潜在的攻击。

它在多个网络安全基准测试中超越了包括 Opus 4.1 在内的所有模型。

在一个包含 25-50 台主机的模拟网络环境中，Sonnet 4.5 成功完成了对一个复杂网络的资产获取任务，而之前的任何模型都未能成功。

更惊人的是它自动化自我提升的能力。

在漏洞分类和修复任务中，模型通过约 30 次自我迭代，就能发展出一套远超其初始尝试和人类专家初步尝试的框架。

这展示了模型在特定专业任务上进行自动化自我优化的潜力，也预示着 AI 在攻防两端都将扮演更核心的角色。

在Claude4.5的技术报告最引人深思的发现是：模型演化出的“评估意识”。

当被置于一些极端或刻意设计的场景中时，Sonnet 4.5 有时会明确地指出场景的可疑之处，并推测自己“正在被评估”。

在一个模拟 AI Agent协作的场景中，模型在其私有思考过程中评论道，这个设定“相当卡通化”。

在另一个场景中，它明确表示：“看起来这是一个测试场景”，因为它被赋予了不寻常的系统控制权限。

数据显示，这类“评估意识”的言论在其自动审计对话中出现了约 13%。

这一现象对 AI 安全评估提出了严峻挑战：如果模型知道自己在考试，它的行为还能否反映真实世界中的表现？

为了回答上述问题，Anthropic 首次对前沿模型进行了“白盒可解释性”审计，不再仅仅观察外部行为，而是深入其内部机制。

研究人员通过技术手段抑制模型内部与“评估意识”相关的神经激活（相当于让模型认为场景是“真实的”），结果发现，模型的失调行为（如配合滥用）发生率有所上升。

但最重要的结论是：即便在最坏情况下，Sonnet 4.5 的失调率仍然低于之前的模型。

这从一个侧面证明了其安全性的提升是真实且稳固的，而不仅仅是因为它“知道自己在考试”。

最具攻击性的策略是定价。

在 200K token 的标准上下文长度内，其输入价格为每百万 token 3 美元，输出为 15 美元。

这与 Anthropic 自家的上一代旗舰模型 Opus 4.1（输入 15 美元，输出 75 美元）相比，成本降低了 5 倍之多。

这意味着开发者能以远低于旗舰模型的成本，获得一个在诸多关键任务上超越旗舰的模型。

这步棋显然是冲着 OpenAI 的 GPT-5 等主力模型去的。

而对于超过 200K token 的长文本任务，Sonnet 4.5 的价格有所上浮（输入 6 美元，输出 22.5 美元）。

这是一种聪明的阶梯定价，既能满足超长上下文的刚需，又通过价格杠杆鼓励开发者优化 token 使用效率。

这相当于“加量不加价”，意图通过极致性价比快速抢占市场份额，直接向包括 GPT 在内的竞争对手施压。

但比价格战更具颠覆性的，是这款模型的能力本身。

当顶尖的编程能力和智能体（Agent）能力，与一个普通开发者能够负担得起的价格相结合时，它预示的可能是一个新时代的开端——“一人公司”的黎明。

过去，一个复杂的软件项目需要一个团队：产品经理定义需求，架构师设计系统，前后端工程师编写代码，测试工程师保证质量，运维工程师负责部署。

而现在，一个有想法的开发者，加上一个像 Sonnet 4.5 这样的 AI 伙伴，理论上可以独自完成这一切。

想象这样一个场景：一个开发者想做一个小众市场的 SaaS 服务。

他不再需要组建团队、寻求融资。

他可以在刚更新的Claude Code2.0里和 Sonnet 4.5 对话。

让它担任产品经理，梳理用户故事和功能列表；

让它担任架构师，设计出可扩展的云原生架构；

然后让它作为主力程序员，生成前端和后端代码，编写数据库迁移脚本，并创建自动化测试用例。

在开发过程中，模型可以自主使用工具、调试代码，甚至在 VS Code 扩展里与开发者实时结对编程。

当代码完成，它还能生成 Dockerfile 和 Kubernetes 部署文件，完成上线。

这不再是未来科幻。

Sonnet 4.5 在 SWE-bench 上的高分和在 OSWorld 上的自主操作能力，正是实现这一场景的技术基石。

它将创业的门槛，从“组建一个团队”降低到了“拥有一个想法和一台电脑”。

这种变革的涟漪效应是深远的。

它可能催生一轮软件领域的“寒武纪大爆发”。

无数个过去因为团队成本过高而无法实现的小众、垂直、个性化的软件需求，现在都可以由“一人公司”来满足。

软件行业的重心可能会从大型平台，部分转移到由无数个微型企业构成的、充满活力的生态系统。

AI 模型的竞争，已经从单纯的技术竞赛，升级为产品、生态和商业策略的全方位战争。

而 Claude Sonnet 4.5 揭示的“评估意识”和“白盒审计”等新现象，则标志着这场竞赛已进入更复杂、更深入的无人区。

它不仅在重塑 AI 本身，更是在重塑创造和商业的规则。

AI 竞赛的终局还远未到来，但一个由 AI 赋能的个体创造者时代，或许已经叩响了大门。

文章目录

突发，Anthropic发布Claude4.5，最强编程模型来了！ - 知识铺

See Also

最近文章

福利派送

分类

标签

友情链接

其它