DeepSeek-V3：开源 MoE 大模型

摘要

DeepSeek-V3 是一款拥有 6710 亿参数的高效开源混合专家（MoE）语言模型，凭借创新的架构设计与极低的训练成本，展现出媲美顶尖闭源模型的卓越性能。

参数规模：总参数量高达 6710 亿（671B），在处理每个 Token 时激活 370 亿（37B）参数。
核心架构：沿用多头潜在注意力（MLA）与 DeepSeekMoE 架构，并首创无辅助损失（auxiliary-loss-free）负载均衡策略，减少性能损耗。
长上下文与多 Token 预测：支持高达 128K 的上下文长度；引入多 Token 预测（MTP）目标以提升整体性能并支持投机解码加速推理。
推理能力蒸馏：成功将 DeepSeek-R1 的长思维链推理、验证与反思能力蒸馏至该模型，在数学（Math）和代码（Code）任务上优势显著。
极致训练效率：首次在超大规模模型上验证了 FP8 混合精度训练的有效性，并通过软硬件协同设计克服了跨节点 MoE 训练的通信瓶颈。
低成本与高稳定性：在 14.8 万亿 Token 上预训练仅耗费 266.4 万 H800 GPU 小时（全量训练总计 278.8 万小时），且训练全程无不可恢复的损失突增或回滚。
开源与部署：提供 Base 和 Chat 版本，代码采用 MIT 协议，模型权重（共 685B）托管于 Hugging Face，支持本地运行。

许可与使用限制：模型及其衍生品虽允许商业用途，但必须遵守特定的基于用途的限制（Use-based restrictions），且任何分发或衍生的模型必须包含相同的限制条款。
输出内容免责：官方对模型生成的输出内容不主张任何权利，用户需对生成内容及其后续使用承担全部责任。
MTP 模块支持尚未完善：多 Token 预测（MTP）模块的社区支持目前仍处于积极开发阶段。

DeepSeek-V3 是一个以高效 MoE 架构为核心的开源基础模型（Base/Chat），强调在超大规模训练与推理部署中兼顾性能与效率，并提供与推理相关的技术路线（例如多 Token 预测、投机解码适配等）。