突发,Anthropic发布Claude4.5,最强编程模型来了! - 知识铺
内容|Max
编辑|Max
刚刚,Anthropic发布了新一代大模型 Claude Sonnet 4.5,并直接称其为 “全球最好的编程模型” 。
这不仅是模型日常迭代的更新,更是 Anthropic 在 AI 竞赛中维持自己编程领域优势最重要的一张牌。
但比性能更值得关注的,是它揭示的 AI 模型复杂性的新维度。
Claude 4.5 的核心武器是代码能力。
在衡量真实世界编程能力的权威基准 SWE-bench Verified 上,Sonnet 4.5 取得了 82.0% 的准确率,超过了其前代 Opus 4.1 (79.4%),也领先GPT-5 (72.8%) 和 Gemini 2.5 Pro (67.2%)。
这让它在软件工程领域站上了新的高点。
它的优势不止于此。
在更考验自主性的“智能体终端编码”(Agentic terminal coding)测试中,Sonnet 4.5 拿到 50.0% 的分数,同样领先所有对手。
在模拟真实计算机操作的 OSWorld 测试中,它的得分从前代模型的 42.2% 跃升至 61.4%,展现了强大的Agent能力。
而在专业性极强的金融分析领域,它的表现更为突出,不仅在 Finance Agent 基准上以 55.3% 的分数大幅领先,在与基线的胜率对比中更是达到了 72%。
这种性能提升已经在一线开发者里得到了验证。
Cursor 的首席执行官 Michael Truell 表示:“我们见证了 Claude Sonnet 4.5 的卓越编码性能,并在长期任务方面取得了显著提升。这进一步印证了众多使用 Cursor 的开发者选择 Claude 来解决最复杂问题的原因。”
GitHub 的首席产品官 Mario Rodriguez 也给出了积极评价:“Claude Sonnet 4.5 增强了 GitHub Copilot 的核心优势。我们的初步评估表明,多步推理和代码理解能力显著提升,使 Copilot 的代理体验能够更好地处理复杂的、跨代码库的任务。”
来自行业领导者的背书,证实了 Sonnet 4.5 的能力并非停留在纸面跑分,而是已经转化为实际的生产力。
为了实现这种高质量输出,Anthropic 延续了之前的一个重要的产品设计:Sonnet 4.5 是一个“混合推理模型”。
它提供了一种“扩展思考模式”,让开发者可以在速度和质量之间做选择。
当性能和准确性比延迟更重要时——比如在处理复杂推理、多步骤编码或深度研究项目时——就可以激活这个模式,模型会花更长时间思考并输出其“思维过程”。
这是一种产品上的取舍,把对模型能力的控制权交还给开发者。
Claude4.5还有另一个关键提升:诚实度。
在处理包含错误前提的问题时,Sonnet 4.5 的“不诚实率”仅为 6.90%,远低于前代。它更倾向于纠正用户的错误,而不是盲目附和。
在处理用户表达明显妄想的敏感问题时,其“谄媚”行为也急剧下降。
这让它作为信息工具的可靠性大大提升。
Claude 4.5 的能力在网络安全领域达到了一个令人不安的新高度。
这一点对于从事安全领域研究和开发的专业人士来说尤其震撼。
因为模型不仅能用于防御,也可以被用来进行潜在的攻击。
它在多个网络安全基准测试中超越了包括 Opus 4.1 在内的所有模型。
在一个包含 25-50 台主机的模拟网络环境中,Sonnet 4.5 成功完成了对一个复杂网络的资产获取任务,而之前的任何模型都未能成功。
更惊人的是它自动化自我提升的能力。
在漏洞分类和修复任务中,模型通过约 30 次自我迭代,就能发展出一套远超其初始尝试和人类专家初步尝试的框架。
这展示了模型在特定专业任务上进行自动化自我优化的潜力,也预示着 AI 在攻防两端都将扮演更核心的角色。
在Claude4.5的技术报告最引人深思的发现是:模型演化出的“评估意识”。
当被置于一些极端或刻意设计的场景中时,Sonnet 4.5 有时会明确地指出场景的可疑之处,并推测自己“正在被评估”。
在一个模拟 AI Agent协作的场景中,模型在其私有思考过程中评论道,这个设定“相当卡通化”。
在另一个场景中,它明确表示:“看起来这是一个测试场景”,因为它被赋予了不寻常的系统控制权限。
数据显示,这类“评估意识”的言论在其自动审计对话中出现了约 13%。
这一现象对 AI 安全评估提出了严峻挑战:如果模型知道自己在考试,它的行为还能否反映真实世界中的表现?
为了回答上述问题,Anthropic 首次对前沿模型进行了“白盒可解释性”审计,不再仅仅观察外部行为,而是深入其内部机制。
研究人员通过技术手段抑制模型内部与“评估意识”相关的神经激活(相当于让模型认为场景是“真实的”),结果发现,模型的失调行为(如配合滥用)发生率有所上升。
但最重要的结论是:即便在最坏情况下,Sonnet 4.5 的失调率仍然低于之前的模型。
这从一个侧面证明了其安全性的提升是真实且稳固的,而不仅仅是因为它“知道自己在考试”。
最具攻击性的策略是定价。
在 200K token 的标准上下文长度内,其输入价格为每百万 token 3 美元,输出为 15 美元。
这与 Anthropic 自家的上一代旗舰模型 Opus 4.1(输入 15 美元,输出 75 美元)相比,成本降低了 5 倍之多。
这意味着开发者能以远低于旗舰模型的成本,获得一个在诸多关键任务上超越旗舰的模型。
这步棋显然是冲着 OpenAI 的 GPT-5 等主力模型去的。
而对于超过 200K token 的长文本任务,Sonnet 4.5 的价格有所上浮(输入 6 美元,输出 22.5 美元)。
这是一种聪明的阶梯定价,既能满足超长上下文的刚需,又通过价格杠杆鼓励开发者优化 token 使用效率。
这相当于“加量不加价”,意图通过极致性价比快速抢占市场份额,直接向包括 GPT 在内的竞争对手施压。
但比价格战更具颠覆性的,是这款模型的能力本身。
当顶尖的编程能力和智能体(Agent)能力,与一个普通开发者能够负担得起的价格相结合时,它预示的可能是一个新时代的开端——“一人公司”的黎明。
过去,一个复杂的软件项目需要一个团队:产品经理定义需求,架构师设计系统,前后端工程师编写代码,测试工程师保证质量,运维工程师负责部署。
而现在,一个有想法的开发者,加上一个像 Sonnet 4.5 这样的 AI 伙伴,理论上可以独自完成这一切。
想象这样一个场景:一个开发者想做一个小众市场的 SaaS 服务。
他不再需要组建团队、寻求融资。
他可以在刚更新的Claude Code2.0里和 Sonnet 4.5 对话。
让它担任产品经理,梳理用户故事和功能列表;
让它担任架构师,设计出可扩展的云原生架构;
然后让它作为主力程序员,生成前端和后端代码,编写数据库迁移脚本,并创建自动化测试用例。
在开发过程中,模型可以自主使用工具、调试代码,甚至在 VS Code 扩展里与开发者实时结对编程。
当代码完成,它还能生成 Dockerfile 和 Kubernetes 部署文件,完成上线。
这不再是未来科幻。
Sonnet 4.5 在 SWE-bench 上的高分和在 OSWorld 上的自主操作能力,正是实现这一场景的技术基石。
它将创业的门槛,从“组建一个团队”降低到了“拥有一个想法和一台电脑”。
这种变革的涟漪效应是深远的。
它可能催生一轮软件领域的“寒武纪大爆发”。
无数个过去因为团队成本过高而无法实现的小众、垂直、个性化的软件需求,现在都可以由“一人公司”来满足。
软件行业的重心可能会从大型平台,部分转移到由无数个微型企业构成的、充满活力的生态系统。
AI 模型的竞争,已经从单纯的技术竞赛,升级为产品、生态和商业策略的全方位战争。
而 Claude Sonnet 4.5 揭示的“评估意识”和“白盒审计”等新现象,则标志着这场竞赛已进入更复杂、更深入的无人区。
它不仅在重塑 AI 本身,更是在重塑创造和商业的规则。
AI 竞赛的终局还远未到来,但一个由 AI 赋能的个体创造者时代,或许已经叩响了大门。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai/post/202510/%E7%AA%81%E5%8F%91Anthropic%E5%8F%91%E5%B8%83Claude4.5%E6%9C%80%E5%BC%BA%E7%BC%96%E7%A8%8B%E6%A8%A1%E5%9E%8B%E6%9D%A5%E4%BA%86/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com