智谱也来炸场了。 - 知识铺
本来昨儿都计划好今天一早趁着人少,开车回老家。没想到,从晚上 6 点多开始,AI 圈子里的重磅新闻就不断,我给大家梳理下:
1、DeepSeek-V3.2-Exp 发布。
它最大的亮点是引入了全新的稀疏注意力机制,大幅压缩了推理成本。也因此,DeepSeek 的输出价格直接下调了 75%。
2、Anthropic 发布 Claude Sonnet 4.5,重点仍然是 Coding 场景。
相比 Opus 4.1,它明显更快,更便宜。官方表示,在实际的任务中,4.5 最长可以运行 30 小时。
3、智谱发布 GLM-4.6,代码能力对齐 Claude Sonnet 4,并且把上下文长度提升到了 200K。
并且,GLM-4.6 已经国产芯片上实现 FP8+Int4 混合量化部署,这也是一个重要的里程碑。
有种时代浩浩荡荡的感觉。Anthropic 离上次发布模型,也才两个月时间,大家的节奏越来越快。而且国内的模型追得也很紧,没有任何一个模型能够持续领先。
DeepSeek 今年过年时凭借 R1 一鸣惊人,然后智谱我觉得从 GLM-4.5 开始,也已经越过山丘。
从最近他们的发布策略来看,我感觉智谱的模型应该是奔着 Anthropic 方向去了,把重心瞄向 Coding 场景。
至少从 Token 的使用量上看, GLM-4.5 已经是国内第一大 Coding 模型了。
上个月,Claude 断供之后,我身边很多工程师都开始用 GLM-4.5 平替。
GLM 在 API 层面做了兼容,像在 Claude Code 里,只需要几行简单的命令,就能把 Claude 的 API 替换为 GLM。
实际用下来,大家普遍觉得 GLM 还挺给力的,在 Coding 里至少能顶上 Claude 的九成功力。
更关键的是,便宜。Claude 虽然最近降了点价,但之前真是贵得离谱。
很多工程师跟我说,反正写代码不是一锤子买卖,天天都要跑。
Claude 用起来心里肉疼,GLM 就踏实多了,用起来没什么心理负担。久而久之,大家自然也就切过去了。
这次 GLM-4.6,真的是够拼。不知道是巧合,还是故意瞄着打,反正 Claude 4.5 一出来,GLM 马上跟上。
我觉得也没必要吹嘘说国产模型有多么厉害,和 Claude 最新的旗舰版本肯定还有差距,人家能一口气跑 30 小时的复杂任务,这个 OpenAI 也做不到。
但说回来,这次 GLM-4.6 也有很多重要的突破:
第一,代码能力确实往前走了一步。GLM-4.6 在一系列权威基准上和 Sonnet 4 基本对齐,更关键的是在真实场景下的表现。
根据官方针对七十多个编程场景的测试结果,GLM-4.6 已经能够胜任日常开发中复杂的 Coding 任务。
第二,上下文长度提升到 200K,这个也追平了 Claude 4 的水准。
200K tokens 大约相当于 15 万个英文单词,意味着整个仓库(尤其是中小型项目)可以一次性加载进去,模型能同时掌握全局逻辑和局部细节。期待 GLM 下次能跨入 1M 时代。
第三,和国产芯片的适配是一个信号。GLM-4.6 已经在寒武纪芯片上完成了 FP8+Int4 的部署,这说明国产芯片在大模型推理上的可行性正在被验证。
与此同时,GLM-4.6 也能在摩尔线程的新一代 GPU 上稳定运行 FP8 精度。
下面这张图是智谱自己的 BenchMark 数据。在真实的研发场景中,GLM 4.6 的表现也比较扎实。
考虑到大家可能关心评测的真实性,智谱已经把完整的测试题和轨迹公开在 Hugging Face,任何人都可以下载复现,自己验证结果。
https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
GLM-4.6 还有一个值得注意的细节:在平均 Token 消耗上,比 GLM-4.5 少了 30% 以上,在同类模型里也算比较低的。
任务完成质量相近的情况下,Token 更少,就代表同样的问题能用更短的时间和更少的开销完成。
对企业来说,调用次数动辄成千上万,30% 的差距累积起来就是一笔实实在在的成本。
并且,Token 也直接关系到速度。消耗更少,推理过程就更快,延迟更低。在复杂的编程任务里,这种差别会让使用体验完全不同。
从实际测试看,GLM-4.6 的回答比 4.5 更紧凑,少了一些冗余解释,更快切入问题本身。这大概也是 Token 消耗下降的原因。
好了,我觉得我不能再废话了。咱们看几个案例。
提前声明下,我下面的案例基本都是前端页面的。写 Go 的同事还调侃我,啥时候能整点后端的例子。
哎,我也想。但写文章的重点不是炫技,而是让读者直观理解模型的变化,这种情况下,前端确实更占优势。
大家一会可以直接去试试,其实 GLM-4.6 在真实的 Coding 场景里表现都相当不错,无论是前端还是后端。
#01
烟花展示
这不是马上十一了,我就先试试让 GLM-4.6 来生成烟花效果。下面是提示词,来源于 X:
Create a single HTML file containing CSS and JavaScript to generate an animated fireworks display. The display should visually represent different types of fireworks with distinct animations: Burst: (e.g., colorful explosive patterns radiating outward) Sparkler: (e.g., continuous sparkling trails and particles) Fountain: (e.g., upward shooting sparks cascading down) Roman Candle: (e.g., sequential colorful balls shooting upward) Show all firework types simultaneously across the screen. The background should be dark night sky. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include controls to trigger different firework combinations and adjust intensity levels.
下面是最终生成的效果。相当可以了啊。
#02
3D 太阳系
这也是行业内的一个经典测试案例了。我同样看看 GLM-4.6 的表现效果,看看它能否清晰展示太阳系的整体结构和各行星运动。
提示词:
A fully interactive 3D solar system, featuring all planets orbiting the sun with accurate relative positions and sizes. Smooth animations of planets and moons, realistic textures for each planet. Include planetary rings, asteroid belts, and orbit lines. Soft lighting from the sun casting realistic shadows. User can rotate, zoom, and explore each planet. Modern, clean 3D style suitable for educational or simulation purposes. Clear labels and subtle glow effects for better visibility.
下面是效果图:
#03
动画加载
再看看动画生成的水准。我的提示词是:
使用 CSS 和 JavaScript 创建单个 HTML 文件以生成动画加载指示器。包括以下不同的加载类型:微调器(带渐变的旋转圆圈)、进度条(用百分比填充动画)、小圆球(弹跳序列)、脉冲(扩展/收缩圆圈)。在深色背景上并排显示所有加载器。包括用于启动/停止每个动画并显示加载百分比的按钮。
最终,GLM-4.6 生成的效果如下:
我再放下 GLM-4.5 生成的效果。
对比可以看到,GLM-4.6 生成的动画流畅度会更舒服一些。
#04
生成 PPT
提示词:
做一个传统文化——二十四节气的 PPT
#05
写在最后
这次更新之后,GLM-4.6 可以说是国内最强的 Coding 模型了。
放到国际市场上看,OpenAI 和 Anthropic 的整体实力肯定还要更胜一筹,但在国内,智谱这样专注在 Coding 场景深耕的创业公司,已经开始把差距一点点拉近。
对我们来说,这是个利好,毕竟 Claude 这样的模型在国内始终不算友好,无论是价格还是可用性。
GLM-4.6 能在国内第一代码模型的位置上坐多久,现在还真不好说。大模型竞争激烈,几乎没有谁能长期稳居头名。
但换个角度看,这反而说明国内厂商的迭代节奏已经跟上来了。
Claude Sonnet 4.5 发布后,又成为了全球编程模型之首。但我也觉得,这次的进步并没有之前那么大。
头部闭源模型的进步在放缓,这也是下半年我们看到的事实。所以,OpenAI 才加紧在布局产品,构建自己的非模型壁垒。
国产模型和头部闭源模型的差距,在部分场景里已经微乎其微,这种趋势在未来一年大概率会进一步加速。
没记错的话,从上个月开始,智谱上线了最低 20 元的 Coding 包月套餐。价格不高,对多数工程师的日常用量来说,这个额度基本够用。
更方便的是,在 Claude Code 这样的工具里,也能直接替换成智谱的模型使用。速度快,便宜,而且还能打。多好。
这次 GLM-4.6 发布后,包月套餐会自动升级到最新版本,同时还加入了图像识别和搜索的能力。
之前觉得 Claude Code 这类工具太贵的同学,假期可以试一试,感受一下在实际开发流程里 GLM-4.6 的实力。
下面是 GLM-4.6 的技术博客,大家感兴趣可以进一步阅读。假期愉快啊。今年这八天假,可劲儿玩。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai/post/202510/%E6%99%BA%E8%B0%B1%E4%B9%9F%E6%9D%A5%E7%82%B8%E5%9C%BA%E4%BA%86/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com