nanoGPT：极简且高效的开源 Python 仓库，专用于训练和微调中型 GPT 模型（如复现 GPT-2）

摘要

1) 一句话总结 nanoGPT 是一个极简且高效的开源 Python 仓库，专用于训练和微调中型 GPT 模型（如复现 GPT-2），目前已停止维护并推荐使用其衍生项目 nanochat。

2) 关键点

项目状态：截至 2025 年 11 月，该项目已被标记为陈旧且弃用（deprecated），作者推荐使用新项目 nanochat，当前仓库仅保留作历史存档。
代码极简：核心代码非常精简且易读，训练循环 (train.py) 和模型定义 (model.py) 各仅约 300 行代码。
模型复现：能够复现 OpenAI 的 GPT-2 (124M) 模型，在单节点 8x A100 40GB GPU 上使用 OpenWebText 数据集训练约需 4 天，损失值可降至 ~2.85。
硬件兼容性：支持多种硬件环境，包括多 GPU 集群（支持 PyTorch DDP 多节点训练）、单 GPU、Apple Silicon Mac（通过 --device=mps 加速 2-3 倍）以及纯 CPU 运行。
核心功能：支持从头开始训练（如字符级莎士比亚文本生成）、加载 OpenAI 预训练权重（最高支持 GPT-2 1.3B）进行微调，以及通过 sample.py 进行文本生成推理。
性能优化：默认使用 PyTorch 2.0，通过 torch.compile() 特性可显著提升训练效率（例如将单次迭代时间从约 250ms 缩短至 135ms）。
依赖项：主要依赖包括 PyTorch、numpy、transformers（用于加载权重）、datasets、tiktoken（BPE 分词）、wandb（日志）和 tqdm。

3) 风险/不足

停止维护风险：项目已明确被弃用，不再进行更新和维护。
平台兼容性问题：默认启用的 PyTorch 2.0 torch.compile 属于实验性功能，在部分平台（如 Windows）上可能报错，需要通过添加 --compile=False 标志来禁用（会降低运行速度）。
数据集领域差异（Domain Gap）：由于 OpenAI 未开源原始 WebText 数据集，使用开源的 OpenWebText 进行评估和复现时存在数据领域差异，需通过微调来对齐基线损失值。
功能缺失（待办事项）：根据项目的 Todos 列表，当前版本尚未实现 FSDP（仅支持 DDP）、标准零样本评估（如 LAMBADA/HELM）、线性批次大小调度以及其他位置编码（如 rotary, alibi）等高级特性。

The simplest, fastest repository for training/finetuning medium-sized GPTs.