摘要

1) 一句话总结

DeepSeek-V3 是一款拥有 6710 亿参数的高效开源混合专家(MoE)语言模型,凭借创新的架构设计与极低的训练成本,展现出媲美顶尖闭源模型的卓越性能。

2) 核心要点

  • 参数规模:总参数量高达 6710 亿(671B),在处理每个 Token 时激活 370 亿(37B)参数。
  • 核心架构:沿用多头潜在注意力(MLA)与 DeepSeekMoE 架构,并首创无辅助损失(auxiliary-loss-free)负载均衡策略,减少性能损耗。
  • 长上下文与多 Token 预测:支持高达 128K 的上下文长度;引入多 Token 预测(MTP)目标以提升整体性能并支持投机解码加速推理。
  • 推理能力蒸馏:成功将 DeepSeek-R1 的长思维链推理、验证与反思能力蒸馏至该模型,在数学(Math)和代码(Code)任务上优势显著。
  • 极致训练效率:首次在超大规模模型上验证了 FP8 混合精度训练的有效性,并通过软硬件协同设计克服了跨节点 MoE 训练的通信瓶颈。
  • 低成本与高稳定性:在 14.8 万亿 Token 上预训练仅耗费 266.4 万 H800 GPU 小时(全量训练总计 278.8 万小时),且训练全程无不可恢复的损失突增或回滚。
  • 开源与部署:提供 Base 和 Chat 版本,代码采用 MIT 协议,模型权重(共 685B)托管于 Hugging Face,支持本地运行。

3) 风险与不足

  • 许可与使用限制:模型及其衍生品虽允许商业用途,但必须遵守特定的基于用途的限制(Use-based restrictions),且任何分发或衍生的模型必须包含相同的限制条款。
  • 输出内容免责:官方对模型生成的输出内容不主张任何权利,用户需对生成内容及其后续使用承担全部责任。
  • MTP 模块支持尚未完善:多 Token 预测(MTP)模块的社区支持目前仍处于积极开发阶段。

功能与定位

DeepSeek-V3 是一个以高效 MoE 架构为核心的开源基础模型(Base/Chat),强调在超大规模训练与推理部署中兼顾性能与效率,并提供与推理相关的技术路线(例如多 Token 预测、投机解码适配等)。

典型使用场景

  • 作为开源大模型基座:在对话、工具调用或业务应用中作为底层模型使用(需要结合安全策略与评测)。
  • 大规模推理部署研究:在 MoE、长上下文与精度/吞吐权衡方面做工程实践。
  • 作为其他推理能力工作的基础:与 R1 等推理训练/蒸馏路线形成配套。

核心内容

  • 模型权重与推理说明:Base/Chat 版本及其运行方式。
  • 训练与架构论文:MoE、MLA、负载均衡策略、FP8 训练等关键设计。
  • 许可与分发条款:代码与模型权重的授权边界、分发与衍生限制。

限制与注意事项

  • 代码与模型权重许可不同:使用前应分别核对仓库中的代码许可与模型许可条款。
  • 若要分发衍生权重或服务化提供,应优先按官方条款确认是否需要附带相同限制与声明。

链接

关联主题