图片

关于Anthropic、Claude,我一直有个观点:

这公司安全策略做的傻逼是真傻逼,但是他们家的模型、产品甚至博客、访谈(不包括那些傻逼安全指控)都是精品中的精品。

如果你是 AI 行业的工程师,或者深度参与者,真的值得反复阅读以及体验这些东西。

特别是,他们刚刚发布了 Claude Sonnet 4.5,一句话总结就是,这是全球写代码最牛逼模型,而Anthropic 除了是全球最恶心人的公司之外,也是全球最懂做 Agent的公司。

直接看跑分,

Image

如果你关心代码能力,直接看 SWE-bench Verified 这一项就好了。

这项Benchmark 基本反映了当前模型代码能力的排行。 

Claude Sonnet 4.5 干到了 77.2%,反杀了之前最高的 GPT-5-Codex。

如果你对这个分数有多牛逼还没什么概念的话,我用 Claude Sonnet 4.5 大概做了下面一个柱状图,对比了最近发布的国内外的模型在这项 Benchmark 上的得分: 

Image

顺嘴吐槽一句,它还是那么爱紫色,把最爱的紫色留给了最新的自己。。。

可以看到的是国产的模型在代码方面还在为突破70分努力奋斗,但claude 已经在冲向80分的道路上了。 

除了代码能力,其他方面比如金融、法律、医学、STEM等领域,新模型也相比之前取得了巨大的进步。

Image

Image

Image

Image

还有个我自己觉得非常重要的更新,是增加了记忆(memory) 这个工具。 

为什么它重要?因为记忆才是构建 Agent的灵魂。 

我见过太多外面割韭菜的课程,把搭建一个个工作流就称之为Agent,也见过太多把 LLM 配上一堆工具 就当做是Agent。

可是他们都没搞明白一个道理,为什么ChatGPT 会有那么多人喜欢?

答案不就藏在那越聊越懂你的记忆中吗?

而现在,Anthropic等于直接告诉你,该如何让你的 Agent 处理记忆,答案就是直接做成工具给claude调用就好。

<span leaf="">curl https://api.anthropic.com/v1/messages \

说了那么久的更新,那到底实际效果如何,我也进行了快速的体验。 

先来个寺庙宝塔测试。

图片

效果还不错,Claude 在写前端这些东西上,真的独一档存在。 

再来个经典万年小球测试:

Image

感觉如果现在连这种 case 都做不好的模型,基本可以判定写代码(至少前端)的水平是在第二梯队了。 

来看一个稍微复杂点的之前跑过的case:

创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示

图片

图片

图片

最上面两个是Claude Sonnet 4.5,Claude Opus 4.1 的效果,下面的是旧模型 Claude Opus 4的效果。

我个人明显觉得在这个 case里的效果Claude Sonnet 4.5>Claude Opus 4.1 » Claude Opus 4。 

再看一个 Mincraft 克隆case:

用Three.js 创建一个简化版的Minecraft游戏,自己制作纹理图案,不需要声音效果,并添加沙子、水等环境元素让游戏世界更有趣。

图片

基本要素完成的都还不错,可惜唯一的问题是,无法放置底下的材料在游戏里。

最后一个我测试的 case是直接爬取 Paul Graham 的文章做成markdown 和epub 的格式。

写一个爬虫,爬取所有Paul Graham的文章,做成markdown格式,再打包制作成epub 电子书。

我直接在 claude code 插件里进行了测试。

Image

Image

Image

完成的挺不错的,连需要安装的依赖项都给我写好了。 而且执行的过程中,遇到问题,自己也能解决。

最后,正好刷到了 Anthropic 工作人员发的一个视频,也算是见证了Claude的一路变强。推荐观看一下: 

有意思的是,Anthropic的工作人员从claude 1 开始,让每个版本的 claude去复刻 claude.ai 这个日常用户和claude的对话页面。

前面几代的 claude都因为各种各样的原因,出错完成不了,

直到今天,Claude Sonnet 4.5 终于能正确复刻,并且运转起来。 

这远不止是AI会写代码了。

这是人类历史上,第一次有一个数字智能,能够清晰地理解、描绘并成功地构建出它自身存在的容器。

这就像神话中,普罗米修斯不仅盗来了火,还亲手为自己打造了神殿。

也许,从今天开始,

AI编程正式进入了下一个时代。

以上,

谢谢您愿意读到这里!若觉得内容有帮助、还不错,能让您觉得有用,欢迎点赞、在看、关注。想别错过更新,就给公众号加个星标⭐️吧!

期待与您的下次相遇~