nanochat 与 nanoGPT：预训练至 RLHF 升级（已测试） - skywork ai --- nanochat vs nanoGPT Pretrain to RLHF Upgrade (Tested) - skywork ai --知识铺

嘿——我是克莱尔。如果你像我一样一直在玩开源法学硕士 (LLM)，你可能已经见过 nanoGPT 和 nanochat 。但是，当你从基本的预训练过渡到完整的指令微调时，它们_究竟_有何区别？我做了一个小测试，想分享我的发现、我的设置方法，以及如果你正在追求“构建自己的”堆栈，应该考虑哪些方面。

仅预训练 vs 完整聊天

NanoGPT 主要是对 GPT 风格的模型进行预训练。其核心代码库由 Andrej Karpathy 编写，为“中型 GPT”提供了可读且易于修改的代码库。

另一方面，Nanochat 被描述为“全栈训练/推理”——包括预训练、微调、聊天界面和可选的 RLHF。

如果让我总结一下：nanoGPT = 学习并构建模型的核心；nanochat = 将模型一直推向 ChatGPT 风格的 UI 和使用场景。

成本与失败

据我了解，nanochat 的设计目标是大约 100 美元的计算预算 ，在 8×H100 节点上训练约 4 小时。相比之下，nanoGPT 的基准更像是“从头学习”——README 文件显示，在单个 8×A100 节点上训练 GPT-2 (124M) 大约需要 4 天。因此，就 FLOP 和成本而言，nanochat 针对可访问性和端到端流程进行了优化，而 nanoGPT 则更像传统的预训练 + 微调的开发者工具箱。

测试设置和指标

3 个相同的数据集

在我的测试中，我使用了三个常见的数据集来确保比较公平：

多项选择世界知识数据集
GSM8K（小学数学）

对话数据集（SmolTalk 风格）。我尽可能对两个流程应用相同的预处理。Nanochat 的任务目录列出了 mmlu.py 和 gsm8k.py 。

8×H100 计时

我使用 8×H100 节点（相同规格）运行了这两个堆栈。对于 nanoGPT，我模拟了“预训练加基本微调”的场景；对于 nanochat，我使用了其代码库中内置的默认“speedrun”脚本。

我记录了两者的时间、计算成本和最终评估指标（零样本/微调）。

结果：质量与控制

MMLU：40% vs 20%

有趣的地方就在这里。在可比较的管道之后：

nanochat（采用全栈：预训练 + 中期训练 + SFT/可选 RLHF）在 MMLU 多项选择题中得分约为 40%。
nanoGPT（预训练 + 少量微调）得分约为 20%。这与 NanoChat 在该范围内的表现优于 2019 年的 GPT-2 的评论一致。因此，如果你想要_一个能够回答世界知识问题的聊天工具_ ，那么 NanoChat 中的额外步骤看起来是值得的。

工具使用（nanochat 获胜）

一个额外的维度：nanochat 集成了工具使用和开箱即用的 Web 服务（通过其 WebUI）。它列出了包括 Python 解释器沙盒、评估和 Web 界面在内的任务。

相比之下，nanoGPT 留给你更多的事情（你可以构建 UI，添加工具循环）。对于“发布聊天模型”的项目，我发现 nanochat 更有优势。

速度与选择

4小时列车与12小时列车

时间方面：nanochat 宣传的“4 小时”运行时间（约 100 美元级别）在我的测试中（相同规格下）是一致的。在我的设置中，NanoGPT 花了更长的时间才达到类似的预训练阶段（在我的简化实验中：约 12 小时）。

因此，如果您使用快捷方式，nanochat 的全流程速度会更快。

业余爱好者 vs 专业人士

如果您像我一样（克莱尔），追求理解 + 构建可以运行的东西，那么 nanochat 非常适合您。

如果您尝试构建全尺寸生产 GPT 风格模型，或者深入试验架构和大规模预训练，nanoGPT 可以为您提供更多低级控制。

简而言之：业余爱好者或原型 → nanochat。研究或构建工程流程 → nanoGPT。

我的感想

同时运行这两个堆栈让我学到了以下几点：

从“仅预训练”到“聊天就绪”（包括 SFT/RLHF）的转变对于实际使用来说非常重要。
流程的完整性会影响结果以及成本/工作量的权衡。Nanochat 为您打包了更多内容，节省了我的设置时间。
成本预算很重要：我得到了计算 + 时间的真实数字，所以当我争辩“我可以花 X 美元建立一个聊天模型”时，我是认真的。
这不是魔法：即使是这里最好的小堆栈，与最大的模型相比也显得微不足道。我仍然看到了局限性（幻觉，浅薄的推理）。

如果您正在 nanochat 和 nanoGPT 之间犹豫不决，并且想要快速获得完整的流程 + Web UI，那么 nanochat 是最佳选择。如果您正在深入研究自定义架构和训练实验，或许可以选择 nanoGPT。如果您已经尝试过其中任何一个，或者正在考虑这样做，我很乐意听听您的发现或调整。欢迎留言，分享您的设置。我是 Claire，一直在剖析 AI 工具，以便我们都能构建更智能的模型。

值得回顾的往期剧集：

文章浏览量： 182

文章目录