无服务器 LLM 推理市场已经爆发,数十家提供商提供各种价格、延迟、可靠性和浮点精度级别的专有和开源模型。虽然选择理想的提供商和 LLM 并不简单,但大多数提供商提供与 OpenAI 兼容的端点,使集成变得简单。这种标准化使得成本成为无服务器开源模型推理的主要差异化因素。随着新的开源模型每周都取得最先进的性能,像 OpenRouter 和 Portkey 这样的路由服务已成为无缝切换提供商的必要基础设施。

价格战

无服务器推理无疑是一场价格战——看看 OpenRouter 上的提供商价格。大多数无服务器提供商将 OpenRouter 作为其更盈利的专用端点的漏斗顶部策略,并且以负利或微利运营。除非你运行的是专有模型,否则 20%以上的利润率几乎是不存在的。

提供商不断优化,实施针对特定模型的调整,使他们能够比使用默认 vLLM 配置的竞争对手更快、更便宜地提供服务。这些优化需要昂贵的 LLMOps 人才,这种成本最终反映在推理定价中。

然而,无服务器推理的价格还有可能更低,因为目前消费者只能使用少数几个具有自己 GPU 集群或与数据中心有协议的推理提供商。数百万台消费者 GPU 无法提供推理服务,即使它们可以比数据中心更便宜地提供!

信任瓶颈

目前,无服务器推理仍然是一小部分玩家的竞争领域,大多数都在 OpenRouter 上可见。具有闲置容量的个别运营商和数据中心无法参与,因为像 OpenRouter 这样的平台无法验证它们的可靠性或验证它们的输出。你如何确认 LLM 输出是合法的——不是来自较小模型或以较低精度运行的相同模型的胡言乱语?信任和可靠性是不可或缺的要求,不能为了更便宜的推理而牺牲。

打破瓶颈

但是,如果我们允许每个 GPU 都运行无服务器推理,并且能够验证它们的 LLM 输出是正确的呢?

突然,市场向全球任何人开放——从利用宿舍电力的大学生到战略性地位于水电站附近以获得最低电费的数据中心。使用现有 GPU 进行 LLM 推理的利润远超加密货币挖矿,这意味着任何拥有消费级 GPU 的人都可以开启一条副收入渠道。

The Inference.net 解决方案

这正是我们在 Inference.net 所构建的:一个去中心化、经过验证的 LLM 推理提供商网络。我们已经实现了 99.99%以上的验证 LLM 输出准确性,并通过代币质押和对不良行为者的惩罚,我们将这个错误率推向零。任何 GPU 所有者都可以运行我们的 Docker 容器,成为推理提供商,并因他们的计算能力获得奖励。

未来,我们预计像 OpenRouter 这样的模型路由器将成为 Inference.net 的包装器,因为我们通过我们的去中心化网络主导了开源模型推理。

迁移已经开始

全球成千上万的 GPU,从大规模加密货币运营到游戏机再到闲置工作站,都已经转向我们。拥有廉价电力的人可以在低于现有少数集中化提供商破产的价格下,有利可图地提供服务推理。

加密挖矿已经证明所有计算最终都会以电力成本来衡量。通过我们可验证的无服务器推理网络,同样的情况也将适用于下一个代币预测。

我们在底部等你。