嘿——我是克莱尔。如果你像我一样一直在玩开源法学硕士 (LLM),你可能已经见过 nanoGPTnanochat 。但是,当你从基本的预训练过渡到完整的指令微调时,它们_究竟_有何区别?我做了一个小测试,想分享我的发现、我的设置方法,以及如果你正在追求“构建自己的”堆栈,应该考虑哪些方面。


仅预训练 vs 完整聊天

NanoGPT 主要是对 GPT 风格的模型进行预训练。其核心代码库由 Andrej Karpathy 编写,为“中型 GPT”提供了可读且易于修改的代码库。

另一方面,Nanochat 被描述为“全栈训练/推理”——包括预训练、微调、聊天界面和可选的 RLHF。

如果让我总结一下:nanoGPT = 学习并构建模型的核心;nanochat = 将模型一直推向 ChatGPT 风格的 UI 和使用场景。

成本与失败

据我了解,nanochat 的设计目标是大约 100 美元的计算预算 ,在 8×H100 节点上训练约 4 小时。相比之下,nanoGPT 的基准更像是“从头学习”——README 文件显示,在单个 8×A100 节点上训练 GPT-2 (124M) 大约需要 4 天。因此,就 FLOP 和成本而言,nanochat 针对可访问性和端到端流程进行了优化,而 nanoGPT 则更像传统的预训练 + 微调的开发者工具箱。


测试设置和指标

3 个相同的数据集

在我的测试中,我使用了三个常见的数据集来确保比较公平:

  • 多项选择世界知识数据集
  • GSM8K(小学数学)

  • 对话数据集(SmolTalk 风格)。我尽可能对两个流程应用相同的预处理。Nanochat 的任务目录列出了 mmlu.pygsm8k.py

8×H100 计时

我使用 8×H100 节点(相同规格)运行了这两个堆栈。对于 nanoGPT,我模拟了“预训练加基本微调”的场景;对于 nanochat,我使用了其代码库中内置的默认“speedrun”脚本。

我记录了两者的时间、计算成本和最终评估指标(零样本/微调)。


结果:质量与控制

MMLU:40% vs 20%

有趣的地方就在这里。在可比较的管道之后:

  • nanochat(采用全栈:预训练 + 中期训练 + SFT/可选 RLHF)在 MMLU 多项选择题中得分约为 40%。
  • nanoGPT(预训练 + 少量微调)得分约为 20%。这与 NanoChat 在该范围内的表现优于 2019 年的 GPT-2 的评论一致。因此,如果你想要_一个能够回答世界知识问题的聊天工具_ ,那么 NanoChat 中的额外步骤看起来是值得的。

工具使用(nanochat 获胜)

一个额外的维度:nanochat 集成了工具使用和开箱即用的 Web 服务(通过其 WebUI)。它列出了包括 Python 解释器沙盒、评估和 Web 界面在内的任务。

相比之下,nanoGPT 留给你更多的事情(你可以构建 UI,添加工具循环)。对于“发布聊天模型”的项目,我发现 nanochat 更有优势。


速度与选择

4小时列车与12小时列车

时间方面:nanochat 宣传的“4 小时”运行时间(约 100 美元级别)在我的测试中(相同规格下)是一致的。在我的设置中,NanoGPT 花了更长的时间才达到类似的预训练阶段(在我的简化实验中:约 12 小时)。

因此,如果您使用快捷方式,nanochat 的全流程速度会更快。

业余爱好者 vs 专业人士

如果您像我一样(克莱尔),追求理解 + 构建可以运行的东西,那么 nanochat 非常适合您。

如果您尝试构建全尺寸生产 GPT 风格模型,或者深入试验架构和大规模预训练,nanoGPT 可以为您提供更多低级控制。

简而言之:业余爱好者或原型 → nanochat。研究或构建工程流程 → nanoGPT。


我的感想

同时运行这两个堆栈让我学到了以下几点:

  • 从“仅预训练”到“聊天就绪”(包括 SFT/RLHF)的转变对于实际使用来说非常重要。
  • 流程的完整性会影响结果以及成本/工作量的权衡。Nanochat 为您打包了更多内容,节省了我的设置时间。
  • 成本预算很重要:我得到了计算 + 时间的真实数字,所以当我争辩“我可以花 X 美元建立一个聊天模型”时,我是认真的。
  • 这不是魔法:即使是这里最好的小堆栈,与最大的模型相比也显得微不足道。我仍然看到了局限性(幻觉,浅薄的推理)。

如果您正在 nanochat 和 nanoGPT 之间犹豫不决,并且想要快速获得完整的流程 + Web UI,那么 nanochat 是最佳选择。如果您正在深入研究自定义架构和训练实验,或许可以选择 nanoGPT。如果您已经尝试过其中任何一个,或者正在考虑这样做,我很乐意听听您的发现或调整。欢迎留言,分享您的设置。我是 Claire,一直在剖析 AI 工具,以便我们都能构建更智能的模型。

值得回顾的往期剧集:

文章浏览量: 182