HBM确实贵,成本能占到GPU的50-80%,但数据中心为什么还在用?因为它在下面这三个维度同时做到了最好:
带宽能到3-5TB/s,是GDDR的5-8倍。单卡容量80-192GB,这样可以避免了多卡通信的开销。功耗效率也是最优的,数据中心里电费可不便宜。
如果你要部署的是7B到70B的模型,GDDR显卡(RTX 6000 Ada)确实可能更合适:
一张RTX 6000 Ada,48GB GDDR6,算力大概是H100的1/3,但价格只有几分之一。配合INT4量化,一张卡能跑一个70B的模型,推理速度虽然慢一些,但对于很多业务场景够用了。如果你的QPS不是特别高,或者对延迟不是那么敏感,这个方案的每token成本可能比H100还低。(我说的是成本,不是速度)
实际上市场已经在这么做了。AWS和阿里云都开始提供基于L40S的推理实例,就是因为发现很多客户根本不需要H100那种配置。
“没有memory bound"这话的问题
题主说的算法优化空间确实很大。量化、KV Cache压缩、FlashAttention、Speculative Decoding,这些技术都能大幅降低内存需求和带宽压力。但这些优化有个共同特点:它们能让你用更便宜的硬件,但无法消除memory bound本身。
还是上面说的一个70B的模型,FP16精度下是140GB数据。在自回归生成时,每生成一个token,都要把整个模型权重读一遍。这时候:
HBM3的3TB/s带宽,读140GB需要47毫秒。GDDR6的600GB/s,需要233毫秒,直接慢了5倍。如果换成LPDDR5的50GB/s,那就要2800毫秒了,慢了60倍。(大概计算)
这是可能是目前硬件的物理极限,不是算法能优化掉的。当然你可以说"那我就不用70B模型,用7B的小模型”——这确实是个解决方案,但这已经不是优化算法了,而是换了另外一个问题。
INT4量化能把模型缩小4倍,但也会有精度损失。KV Cache压缩能减少激活内存,但长上下文的性能会下降。模型蒸馏能把大模型压缩成小模型,但能力也会打折扣。这些tradeoff是绕不过去的。
未来会用LPDDR或者GDDR吗
手机和笔记本上已经在用了。端侧推理场景下,LPDDR是主流选择,因为功耗优先。但对于云端推理,LPDDR的带宽实在太低,只适合批量推理这种对延迟不敏感的场景。
真正有意思的是一些架构创新。Groq的LPU用了片上SRAM,Cerebras直接把整个模型放在芯片上,这些方案都是在尝试用架构设计绕过传统的内存瓶颈。但这些方案目前成本更高,适用场景也很特定。
市场正在分层
现在的情况其实是这样的:云端大模型推理(70B以上),HBM仍然是最优解,因为虽然贵,但算上吞吐、电费、机房成本,总成本反而最低。
中小模型推理(小企业/个人),GDDR正在快速占领市场,性价比确实更高。这就是题主观察到的趋势,而且这个趋势会越来越明显。
边缘推理场景,LPDDR和片上内存是主流,因为功耗才是第一优先级。
训练任务,基本没什么选择,必须用HBM,因为训练对带宽的需求比推理还要高得多。
最后
所以回到题主的问题:大模型推理一定要用HBM吗?答案是不一定。要看你的模型大小、业务场景、QPS需求。很多时候GDDR就够用了,而且性价比更高。但如果你要部署的是百亿级别的大模型,追求极致的吞吐和延迟,那目前HBM仍然是最优解。(除非有什么技术更成熟了可以替代)
有可能很多人高估了HBM的必要性,但"没有memory bound"这话说得有点绝对——memory bound是真实存在的物理约束,只是在很多实际场景下,它没有大家想象的那么严重罢了。
而且你不要忘了,你可以怀疑老黄的人品,但是不要怀疑他的眼光,他是商人,这方面可精着呢。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/geek002/post/202510/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E4%B8%80%E5%AE%9A%E8%A6%81%E7%94%A8HBM%E5%90%97-%E7%9F%A5%E4%B9%8E/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com