TinyZero：DeepSeek R1-Zero 强化学习极简复现工具

摘要

1) 一句话总结 TinyZero 是一个基于 veRL 框架构建的 DeepSeek R1-Zero 极简复现项目，通过强化学习使 3B 规模的基础语言模型在倒计时和乘法任务中自主发展出自我验证与搜索能力。

2) 关键要点

项目定位：DeepSeek R1-Zero 的极简复现，主要针对倒计时（countdown）和乘法任务。
核心技术：基于字节跳动的 veRL 框架构建，通过强化学习（RL）激发模型的推理能力。
模型与成本：主要使用 Qwen2.5 系列作为基础模型，仅需不到 30 美元的成本即可复现模型顿悟的“Aha moment”。
单卡训练：支持 1.5B 及以下参数规模的模型在单 GPU 上运行。
多卡训练：对于 3B 及以上规模的模型（如 Qwen2.5-3B），模型能够发展出复杂的推理技能（示例脚本使用 2 张 GPU）。
指令微调消融实验：项目支持对 Qwen-2.5-3B Instruct 模型进行实验，并提供了适配聊天模板的数据重处理脚本。
依赖环境：主要依赖 Python 3.9、PyTorch 2.4.0、vLLM 0.6.3、Ray 和 Flash Attention 2 等基础设施。
开源与热度：采用 Apache License 2.0 协议，项目在 GitHub 上已获得超 12,700 个 Stars 和 1,500+ 个 Forks。

3) 风险/不足

显存溢出风险：在运行训练代码时可能会遇到显存不足（Out-of-vram）的问题，官方建议在脚本中添加 critic.model.enable_gradient_checkpointing=True 来尝试解决。
小模型能力瓶颈：项目明确指出，Qwen2.5-0.5B 基础模型在实验中未能成功学习到推理能力（fails to learn reasoning）。

Minimal reproduction of DeepSeek R1-Zero