nanochat：开源 LLM 训练工具，支持单节点 GPU 低成本训练 GPT-2 级模型

摘要

1) 一句话总结 nanochat 是一个极简的开源大语言模型（LLM）训练实验框架，支持在单节点 GPU 上以低于 100 美元的成本，端到端训练并部署具备 GPT-2 能力的类 ChatGPT 模型。

2) 核心要点

全流程覆盖：代码库极简且易于修改，涵盖了分词、预训练、微调、评估、推理以及类似 ChatGPT 的 Web UI 聊天界面等 LLM 核心阶段。
极低成本与高效：在 8xH100 GPU 节点上，仅需约 3 小时（成本约 72 美元，使用竞价实例可降至约 20 美元）即可训练出 GPT-2 级别的模型（2019 年训练成本约为 4.3 万美元）。
极简超参数配置：项目围绕单一复杂度参数 --depth（Transformer 层数）设计。用户只需设置层数（GPT-2 级别约为 26 层），系统会自动以最优方式计算宽度、注意力头数、学习率等所有其他超参数。
Time-to-GPT-2 排行榜：项目维护了一个“GPT-2 竞速”排行榜，以 DCLM CORE 分数（目标 >0.256525）为基准，衡量训练至 GPT-2 级别所需的时间，目前最快记录为 2.76 小时。
硬件兼容性：默认针对 8xH100 节点设计（通过 runs/speedrun.sh 运行），但也支持单 GPU（耗时增加 8 倍）、Ampere 架构 GPU，以及纯 PyTorch 支持的其他设备。
研究友好：提供 scaling_laws.sh 和 miniseries.sh 脚本供研究使用，支持通过训练 12 层微型模型（约 5 分钟）进行快速迭代和实验。
代码库理念：拒绝复杂的配置对象或工厂模式，保持单一、连贯、高可读性的“强基线”代码，旨在降低认知复杂度。
AI 贡献政策：要求在提交 PR 时，必须明确披露由 LLM 生成且提交者未完全理解的代码部分。

3) 风险与局限（基于原文明确提及）

显存溢出（OOM）风险：如果使用的 GPU 显存低于 80GB，必须手动调低 --device_batch_size（如从默认的 32 降至 16、8 甚至更低），否则会导致显存耗尽。
未充分测试的硬件路径：虽然代码基于原生 PyTorch 编写，理论上支持 xpu、mps 等设备，但作者未亲自测试所有代码路径，可能存在未知问题（sharp edges）。
CPU/MPS 运行效果差：在 CPU 或 Apple Silicon 上运行（runs/runcpu.sh）需要大幅缩小模型规模以适应时间限制，这种方式无法获得良好的模型能力结果。

功能与定位

The best ChatGPT that $100 can buy.

典型使用场景

作为通用开发工具用于工程协作与效率提升。
适用于个人与团队的日常研发流程。

核心功能

提供稳定的通用工程能力。
支持跨平台或多环境使用。
依赖开源社区持续迭代。

特色与差异点

仓库长期活跃，最近更新时间为 2026-02-22T12:29:17Z。
项目创建于 2025-10-13T13:46:35Z，具备持续迭代与社区沉淀。
以 Python 为主语言，聚焦该技术栈的工程实践。

使用方式概览

阅读仓库 README 与官方文档，确认适配场景与依赖条件。
按项目推荐方式完成安装与初始化，再从示例或最小流程开始验证。
在生产使用前补齐权限控制、日志监控和版本固定策略。

wsl-docs

探索

nanochat：开源 LLM 训练工具，支持单节点 GPU 低成本训练 GPT-2 级模型

摘要

功能与定位

典型使用场景

核心功能

特色与差异点

使用方式概览

限制与注意事项

链接

相关文档

关联主题

关系图谱

目录