nanochat – 全栈开源低成本训练自建ChatGPT

57 0 0

nanochat是什么

nanochat是由人工智能领域知名专家Andrej Karpathy推出的一个开放源代码项目。该项目致力于以非常低廉的成本和高效的流程来训练小型语言模型，从而实现类似ChatGPT的对话能力。仅仅花费大约100美元（利用8张H100 GPU训练4小时），就能训练出一个具备基础对话、创作故事或诗歌、回答简单问题能力的小模型。如果将预算提高到1000美元左右（训练时间延长至约41.6小时），模型的性能会有明显进步，能够处理简单的数学或代码问题，并参与一些多项选择题的测试。该项目涵盖了从数据准备、预训练、中期训练、监督微调（SFT）、强化学习（RL）到最终推理部署的完整训练链路。整个流程通过约8000行代码实现端到端的训练，代码结构简洁，易于阅读理解，非常适合用于学习和实践。

nanochat的主要功能

分词器训练：该项目使用Rust语言来训练分词器，其核心任务是将输入的文本转化为符号码本序列。
预训练：在FineWeb数据集上，对基于Transformer架构的大型语言模型进行预训练，并通过CORE指标来评估模型的性能表现。
中期训练：在包含SmolTalk用户-助手对话数据集、多项选择题数据集以及工具使用数据集上进行中期训练，以使模型更好地适应对话场景。
监督微调（SFT）：在诸如世界知识多项选择题数据集（ARC-E/C、MMLU）、数学数据集（GSM8K）以及代码数据集（HumanEval）上进行监督微调，从而提升模型在特定任务上的性能。
强化学习微调（RL）：采用“GRPO”算法，在GSM8K数据集上对模型进行强化学习微调，以进一步优化模型的整体表现。
推理部署：实现了高效的模型推理功能，支持KV缓存、简化的预填充与解码流程、工具调用（在轻量级沙箱环境中的Python解释器），用户可以通过命令行界面或类似ChatGPT的网页界面与模型进行交互。
成绩单生成：能够生成一份统一的Markdown格式报告卡，用于总结整个训练与推理流程，并以一种“游戏化”的形式来展示最终的结果。