DeepSeek-R1：开源推理模型系列

摘要

1) 一句话总结 DeepSeek-R1 是由 DeepSeek 开源（MIT协议）的具备顶尖推理能力的大模型系列，包含 671B 参数的 MoE 模型及多款打破 SOTA 的蒸馏小模型，在数学、代码和复杂推理任务上性能可媲美 OpenAI-o1。

2) 关键要点

模型架构与参数：DeepSeek-R1 和 R1-Zero 采用混合专家（MoE）架构，总参数量 671B，激活参数 37B，支持高达 128K 的上下文长度。
纯强化学习突破：DeepSeek-R1-Zero 首次验证了无需监督微调（SFT）冷启动，仅通过大规模强化学习（RL）即可自然涌现出自我验证和长思维链（CoT）等强大推理能力。
多阶段训练管道：为解决纯 RL 模型的问题，DeepSeek-R1 引入了冷启动数据，并采用包含两个 RL 阶段和两个 SFT 阶段的完整训练管道进行对齐与优化。
高性能蒸馏模型：开源了 6 款基于 Qwen2.5（1.5B-32B）和 Llama3（8B/70B）的蒸馏模型；其中 32B 蒸馏模型在多项基准测试中超越 OpenAI-o1-mini，创下密集型（Dense）模型的新 SOTA。
部署与调用：支持网页端（DeepThink）、兼容 OpenAI 格式的 API 调用；蒸馏模型支持通过 vLLM 或 SGLang 快速本地部署，大模型部署需参考 DeepSeek-V3 仓库。
参数设置建议：官方推荐将 Temperature 设置在 0.5 到 0.7 之间（最推荐 0.6）；数学问题建议在提示词中明确要求“逐步推理并将最终答案放在 \boxed{} 中”。

3) 风险与缺口

提示词限制：强烈建议不要添加系统提示词（System Prompt），所有指令必须包含在用户提示词中。
思考过程缺失风险：模型在回答某些问题时可能会跳过思考过程，建议在每次输出开头强制模型生成 <think>\n 以保证充分推理。
输出异常风险：若 Temperature 设置不当，模型可能会出现输出无限重复或内容不连贯的问题（R1-Zero 早期版本也存在无限重复、可读性差和语言混杂问题）。
框架兼容性缺口：目前 Hugging Face 的 Transformers 库尚未直接支持 DeepSeek-R1 大模型的运行。
评估偏差风险：单次测试可能无法准确反映性能，官方建议进行多次测试并取平均值（官方基准测试采用生成 64 个回答来评估 pass@1）。

DeepSeek-R1 是一个围绕“复杂推理能力”的开源模型与配套资料集合：既包含大规模 MoE 推理模型，也包含多尺寸蒸馏模型，目标是在数学、代码与多步推理任务上提供强基线，并便于社区在不同算力条件下复现与部署。