| 知识铺的博客

HBM确实贵，成本能占到GPU的50-80%，但数据中心为什么还在用？因为它在下面这三个维度同时做到了最好：

带宽能到3-5TB/s，是GDDR的5-8倍。单卡容量80-192GB，这样可以避免了多卡通信的开销。功耗效率也是最优的，数据中心里电费可不便宜。

如果你要部署的是7B到70B的模型，GDDR显卡（RTX 6000 Ada）确实可能更合适：

一张RTX 6000 Ada，48GB GDDR6，算力大概是H100的1/3，但价格只有几分之一。配合INT4量化，一张卡能跑一个70B的模型，推理速度虽然慢一些，但对于很多业务场景够用了。如果你的QPS不是特别高，或者对延迟不是那么敏感，这个方案的每token成本可能比H100还低。（我说的是成本，不是速度）

实际上市场已经在这么做了。AWS和阿里云都开始提供基于L40S的推理实例，就是因为发现很多客户根本不需要H100那种配置。

“没有memory bound"这话的问题

题主说的算法优化空间确实很大。量化、KV Cache压缩、FlashAttention、Speculative Decoding，这些技术都能大幅降低内存需求和带宽压力。但这些优化有个共同特点：它们能让你用更便宜的硬件，但无法消除memory bound本身。

还是上面说的一个70B的模型，FP16精度下是140GB数据。在自回归生成时，每生成一个token，都要把整个模型权重读一遍。这时候：

HBM3的3TB/s带宽，读140GB需要47毫秒。GDDR6的600GB/s，需要233毫秒，直接慢了5倍。如果换成LPDDR5的50GB/s，那就要2800毫秒了，慢了60倍。（大概计算）

这是可能是目前硬件的物理极限，不是算法能优化掉的。当然你可以说"那我就不用70B模型，用7B的小模型”——这确实是个解决方案，但这已经不是优化算法了，而是换了另外一个问题。

INT4量化能把模型缩小4倍，但也会有精度损失。KV Cache压缩能减少激活内存，但长上下文的性能会下降。模型蒸馏能把大模型压缩成小模型，但能力也会打折扣。这些tradeoff是绕不过去的。

未来会用LPDDR或者GDDR吗

手机和笔记本上已经在用了。端侧推理场景下，LPDDR是主流选择，因为功耗优先。但对于云端推理，LPDDR的带宽实在太低，只适合批量推理这种对延迟不敏感的场景。

真正有意思的是一些架构创新。Groq的LPU用了片上SRAM，Cerebras直接把整个模型放在芯片上，这些方案都是在尝试用架构设计绕过传统的内存瓶颈。但这些方案目前成本更高，适用场景也很特定。

市场正在分层

现在的情况其实是这样的：云端大模型推理（70B以上），HBM仍然是最优解，因为虽然贵，但算上吞吐、电费、机房成本，总成本反而最低。

中小模型推理（小企业/个人），GDDR正在快速占领市场，性价比确实更高。这就是题主观察到的趋势，而且这个趋势会越来越明显。

边缘推理场景，LPDDR和片上内存是主流，因为功耗才是第一优先级。

训练任务，基本没什么选择，必须用HBM，因为训练对带宽的需求比推理还要高得多。

最后

所以回到题主的问题：大模型推理一定要用HBM吗？答案是不一定。要看你的模型大小、业务场景、QPS需求。很多时候GDDR就够用了，而且性价比更高。但如果你要部署的是百亿级别的大模型，追求极致的吞吐和延迟，那目前HBM仍然是最优解。（除非有什么技术更成熟了可以替代）

有可能很多人高估了HBM的必要性，但"没有memory bound"这话说得有点绝对——memory bound是真实存在的物理约束，只是在很多实际场景下，它没有大家想象的那么严重罢了。

而且你不要忘了，你可以怀疑老黄的人品，但是不要怀疑他的眼光，他是商人，这方面可精着呢。

文章目录

“没有memory bound"这话的问题

未来会用LPDDR或者GDDR吗

市场正在分层

最后

See Also

最近文章

分类

标签

友情链接

其它