Inference.net 博客 剩下的就是蒸馏 --- Inference.net Blog What S Left Is Distillation - 知识铺
坊间传闻,OpenAI 现在仅在 LLM 训练上就花费了超过 5000 万美元。在没有国家规模资源的情况下,试图在超级智能领域竞争几乎是徒劳的。尽管如此,大规模的训练运行和强大但昂贵的模型意味着另一种技术开始占据主导地位:蒸馏。
2024 年是浪费 AI 企业支出的年份。财富 500 强公司会花费数千万美元,并自豪地宣布他们训练了自己的 SOTA 模型,然而这些模型在发布后几个月或几周内就过时了。像 OpenAI 和 Anthropic 这样的大型实验室会立即发布一个新模型,这个模型在特定任务上的表现比这些公司花费大量金钱和时间训练的模型还要好!
令人印象深刻的是,开源模型能够迅速赶上大型实验室。这部分是因为在限制下的创造力,但主导策略是悄然蒸馏大型专有模型。《Deepseek》是这两个方面的最令人印象深刻的例子。Deepseek 是这两个方面的最令人印象深刻的例子 。
开源已经落后于专有模型多年,但最近这个差距正在扩大。以 LMArena 为例:
即使 Meta 和阿里巴巴(Qwen)表现出了“慷慨”,他们花费数亿美元仅为了发布模型权重,开源在通用智能方面仍然无法与超级智能实验室的霸权竞争。GPU 资源的差距难以完全理解。最大的实验室要么拥有,要么可以访问 20k+的 H100/H200 等价 GPU。第一个花费 10 亿美元训练的模型也不会免费发布。
2025 年是代理和应用程序层的年份。通过许多昂贵的教训,企业意识到训练大型模型是浪费时间。相反,通过构建能够接受地解决特定任务的最小 LLM,可以取得容易的胜利。大多数公司发现,如果不担心训练,他们仍然可以服务用户并赚取利润。如果一个 LLM 目前还不能接受地解决特定任务,那么现在构建可能的东西并等待几个月不是最糟糕的策略。
LLMs 证明比大多数软件更能削减利润,而那些似乎能解决任何任务的大型模型也伴随着显著的延迟。
大多数应用不需要超级智能,而是需要低延迟的模型,这些模型足以完成特定任务。无论这个任务是数据提取、分类还是研究,它们都需要既便宜又足够快的模型,以便部署给数百万用户并最大化利润。
幸运的是,当你拥有能够出色完成任何任务的超级智能模型时,通过一种称为蒸馏的过程,训练一个更小的模型变得极其容易。蒸馏过程将大模型的输出用于训练一个更小的预训练模型,这个过程称为监督微调(SFT),通常可以保留 95%以上的性能,同时速度和成本降低一个数量级。
蒸馏是产品市场匹配之后的第二步。一旦拥有用户和显著的成本,蒸馏可以扩大利润空间并减少延迟,而不会影响质量。
蒸馏的挑战在于,你需要经验才能有效地蒸馏和评估模型。一旦训练完成,部署模型并非易事。
这是我们在 Inference.net 要解决的问题。为忙碌的创始人提供端到端蒸馏和推理 ,让他们只需关注应用层。如果您每月在模型上的花费超过 30k,我们很乐意与您交谈。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai/post/202510/Inference.net-%E5%8D%9A%E5%AE%A2-%E5%89%A9%E4%B8%8B%E7%9A%84%E5%B0%B1%E6%98%AF%E8%92%B8%E9%A6%8F---Inference.net-Blog-What-S-Left-Is-Distillation/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com
See Also
- Inference.net 博客Cliptagger 12b --- Inference.net Blog Cliptagger 12b - 知识铺
- Inference.net 博客将 LLM 推理成本降低到电费水平 --- Inference.net Blog Arbitraging Down Llm Inference To The Cost Of Electricity - 知识铺
- 推理网博客 智能体搜索 --- Inference.net Blog Agentic Search - 知识铺
- AI 代理的有效上下文工程 Killer Code - 知识铺
- Andrej Karpathy 谈 LLM 辅助编程的演进:哲学与实践的融合 Killer Code - 知识铺