HBM确实贵,成本能占到GPU的50-80%,但数据中心为什么还在用?因为它在下面这三个维度同时做到了最好:

带宽能到3-5TB/s,是GDDR的5-8倍。单卡容量80-192GB,这样可以避免了多卡通信的开销。功耗效率也是最优的,数据中心里电费可不便宜。

如果你要部署的是7B到70B的模型,GDDR显卡(RTX 6000 Ada)确实可能更合适:

一张RTX 6000 Ada,48GB GDDR6,算力大概是H100的1/3,但价格只有几分之一。配合INT4量化,一张卡能跑一个70B的模型,推理速度虽然慢一些,但对于很多业务场景够用了。如果你的QPS不是特别高,或者对延迟不是那么敏感,这个方案的每token成本可能比H100还低。(我说的是成本,不是速度)

实际上市场已经在这么做了。AWS和阿里云都开始提供基于L40S的推理实例,就是因为发现很多客户根本不需要H100那种配置。

“没有memory bound"这话的问题

题主说的算法优化空间确实很大。量化、KV Cache压缩、FlashAttention、Speculative Decoding,这些技术都能大幅降低内存需求和带宽压力。但这些优化有个共同特点:它们能让你用更便宜的硬件,但无法消除memory bound本身。

还是上面说的一个70B的模型,FP16精度下是140GB数据。在自回归生成时,每生成一个token,都要把整个模型权重读一遍。这时候:

HBM3的3TB/s带宽,读140GB需要47毫秒。GDDR6的600GB/s,需要233毫秒,直接慢了5倍。如果换成LPDDR5的50GB/s,那就要2800毫秒了,慢了60倍。(大概计算)

这是可能是目前硬件的物理极限,不是算法能优化掉的。当然你可以说"那我就不用70B模型,用7B的小模型”——这确实是个解决方案,但这已经不是优化算法了,而是换了另外一个问题。

INT4量化能把模型缩小4倍,但也会有精度损失。KV Cache压缩能减少激活内存,但长上下文的性能会下降。模型蒸馏能把大模型压缩成小模型,但能力也会打折扣。这些tradeoff是绕不过去的。

未来会用LPDDR或者GDDR吗

手机和笔记本上已经在用了。端侧推理场景下,LPDDR是主流选择,因为功耗优先。但对于云端推理,LPDDR的带宽实在太低,只适合批量推理这种对延迟不敏感的场景。

真正有意思的是一些架构创新。Groq的LPU用了片上SRAM,Cerebras直接把整个模型放在芯片上,这些方案都是在尝试用架构设计绕过传统的内存瓶颈。但这些方案目前成本更高,适用场景也很特定。

市场正在分层

现在的情况其实是这样的:云端大模型推理(70B以上),HBM仍然是最优解,因为虽然贵,但算上吞吐、电费、机房成本,总成本反而最低。

中小模型推理(小企业/个人),GDDR正在快速占领市场,性价比确实更高。这就是题主观察到的趋势,而且这个趋势会越来越明显。

边缘推理场景,LPDDR和片上内存是主流,因为功耗才是第一优先级。

训练任务,基本没什么选择,必须用HBM,因为训练对带宽的需求比推理还要高得多。

最后

所以回到题主的问题:大模型推理一定要用HBM吗?答案是不一定。要看你的模型大小、业务场景、QPS需求。很多时候GDDR就够用了,而且性价比更高。但如果你要部署的是百亿级别的大模型,追求极致的吞吐和延迟,那目前HBM仍然是最优解。(除非有什么技术更成熟了可以替代)

有可能很多人高估了HBM的必要性,但"没有memory bound"这话说得有点绝对——memory bound是真实存在的物理约束,只是在很多实际场景下,它没有大家想象的那么严重罢了。

而且你不要忘了,你可以怀疑老黄的人品,但是不要怀疑他的眼光,他是商人,这方面可精着呢。