智谱 GLM-4.6 发布,真实编程测试干翻了 Claude Sonnet 4,MIT全开源 (1) - 知识铺
算泥社区是集 “AI 大模型开发服务 + 算法 + 算力” 于一体的开源生态社区,欢迎关注!
智谱新出的 GLM-4.6,编程能力大幅提升,较GLM-4.5提升27%,而且一如既往地开源。
现在大模型满天飞,个个都说自己强,尤其是在写代码这块,更是兵家必争之地。
代码这事,被 GLM-4.6 拿捏了
光跑分还是差点意思,是骡子是马,总得拉到真实场景里遛遛。智谱这次就在 Claude Code 环境下,真刀真枪地跑了 74 个现实世界里的编程任务。
结果 GLM-4.6 赢了。不光是超过了 Claude Sonnet 4,也把国内其他模型甩在了后面。
不光性能强,它还省token。
完成同样任务,GLM-4.6 平均消耗的 token 比上一代 GLM-4.5 少了 30% 还多。在同类模型里,这个消耗量是最低的。
效率高,成本低。对于天天跟代码打交道的开发者来说,用更少的钱,办更多的事。
智谱还把所有测试题、模型的每一步操作轨迹,都公开在了 Hugging Face 上。
https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
这种坦诚的态度,比讲一万句“我们很牛”都管用。
当然,只在一项测试里表现好,可能有人会说是“偏科生”。
智谱在八个业内公认的权威基准评测里,像是 AIME 25、GPQA、LCB v6、SWE-Bench Verified 这一大串,GLM-4.6 的综合表现,基本跟 Claude Sonnet 4 看齐,在国内模型里稳坐头把交椅。
说明它是个实打实的“学霸”,各科成绩都挺均衡,综合能力很强。
GLM-4.6 是智谱最新的旗舰模型。它的总参数量有 355B,激活参数是 32B。它在所有核心能力上,都比上一代 GLM-4.5 有了明显的进步。
不只会写代码
好模型,不能只会写代码。
GLM-4.6 的上下文窗口,从 128K 扩展到了 200K。
200K 相当于能把厚厚的项目文档、更复杂的代码库整个“读”进去,然后再跟你讨论细节。这对于处理长篇代码或者执行需要长线记忆的智能体任务,至关重要。
它的推理能力也变强了,还能在推理的过程中调用外部工具。
这就好比你让一个聪明的实习生干活,他不仅自己会思考,遇到搞不定的问题,还会自己上网查资料、用计算器、调数据库,而不是两手一摊告诉你“我不会”。这种调用工具和搜索的能力,让它在智能体框架里表现得更好,能更自主地完成复杂任务。
除了这些硬核技能,它在“文科”方面也进步了。
比如写作能力,无论是文风、可读性,还是角色扮演,都更贴近人类的偏好。写出来的东西少了很多机器味儿,多了几分人情味。
总结一下它的能力清单,可以说是非常全面了:
有了好模型,还得配上中国“芯”
模型好,还能在中国“芯”上跑。
GLM-4.6 和寒武纪、摩尔线程等国产芯片厂商做了深度适配。
在寒武纪的芯片上,实现了 FP8+Int4 混合量化部署。用非常高效的方式压缩模型,让它在保持高精度的同时,大幅降低推理成本。这是首次在国产芯片投产的FP8+Int4模型芯片一体解决方案。
在摩尔线程的新一代 GPU 上,GLM-4.6 也能基于原生的 FP8 精度稳定运行。
这件事的意义在于,它为国产大模型在本地化运行上,趟出了一条可行的路。未来,我们自己的大模型跑在我们自己的芯片上,会越来越流畅,性能和效率也会不断优化。
这个组合,已经通过智谱的 MaaS 平台,正式提供给大众和企业使用。
随着 GLM-4.6 的发布,智谱也把他们的 GLM Coding 编码套餐全面升级了。
价格,最低 20 块钱包月。
之前已经订阅了这个套餐的用户,不用任何操作,就自动升级到了 GLM-4.6 的能力。
升级后还多了两个新本事:图像识别和联网搜索。
同时,它支持的编程工具也更多了,像 Claude Code、Roo Code、Kilo Code、Cline 等超过十种主流的编程工具都能用。
如果你是那种一天到晚都在写代码的重度开发者,他们还推出了一个叫 GLM Coding Max 的套餐。用量是市面上某个主流竞品 Max 套餐的三倍,但价格上很有竞争力。
针对企业用户,也有专门的企业版套餐,主打安全、高性价比和顶尖性能。
怎么才能用上呢?
-
普通用户可以直接在智谱 MaaS 平台
bigmodel.cn
、或者z.ai
、智谱清言这些产品里体验。 -
开发者和企业用户,可以直接在
bigmodel.cn
上购买编码套餐。 -
海外用户可以通过
z.ai
使用 API 服务。
如果你想自己部署,智谱也想到了。GLM-4.6 模型已在 Hugging Face 和 ModelScope 上开源,遵循的是 MIT 协议,这是个非常宽松的开源协议,基本上你想怎么用都行。
看得出来,智谱对 GLM-4.6 寄予厚望。它的上一代 GLM-4.5,就是因为在代码能力上表现突出,在 OpenRouter(一个大模型API聚合平台)上稳居全球前十供应商,也让智谱 MaaS 平台的 API 商业化收入增长了十倍以上。
现在,更强的 GLM-4.6 来了。
所以,你要不要也去试试看?
参考资料:
https://docs.bigmodel.cn/cn/guide/models/text/glm-4.6
https://huggingface.co/zai-org/GLM-4.6
https://www.modelscope.cn/models/ZhipuAI/GLM-4.6/summary
END
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai/post/202510/%E6%99%BA%E8%B0%B1-GLM-4.6-%E5%8F%91%E5%B8%83%E7%9C%9F%E5%AE%9E%E7%BC%96%E7%A8%8B%E6%B5%8B%E8%AF%95%E5%B9%B2%E7%BF%BB%E4%BA%86-Claude-Sonnet-4MIT%E5%85%A8%E5%BC%80%E6%BA%90-1--%E7%9F%A5%E8%AF%86%E9%93%BA/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com