DeepSeek-Coder：代码大模型项目

摘要

DeepSeek-Coder 是一系列基于 2 万亿 token 从头训练的开源代码语言模型，支持 16K 上下文和项目级代码补全，在多项代码基准测试中达到了开源模型的最先进水平。

开源协议与社区热度：项目采用 MIT 协议开源，主要使用 Python 开发，GitHub 仓库已获得超 2.2 万 Stars。
模型规模与上下文：提供 1B、5.7B、6.7B 和 33B 四种参数规模，支持 16K 的上下文窗口大小。
海量训练数据：模型在 2 万亿（2T）token 的数据上从头训练，数据构成包含 87% 的代码和 13% 的中英文自然语言。
卓越的评估性能：Base-33B 模型在 HumanEval、MBPP 和 DS-1000 等基准测试中显著超越 CodeLlama-34B；Instruct-33B（指令微调版）在 HumanEval 上超越了 GPT-3.5-turbo。
项目级代码能力：在数据处理阶段解析了仓库内文件的依赖关系并进行拼接，结合填空（fill-in-the-blank）任务，使其具备强大的项目级代码补全与插入能力。
广泛的语言支持：支持 Python、C++、Java、Rust、Go 等 80 多种编程语言。
三阶段训练流程：
1. 初始预训练：在 1.8T token 上使用 4K 窗口训练。
2. 长上下文预训练：在额外 200B token 上将窗口扩展至 16K，产出基础模型（Base）。
3. 指令微调：使用 2B token 的指令数据进行微调，产出指令模型（Instruct）。
便捷的部署与使用：用户可通过安装 requirements.txt 依赖，并利用 Hugging Face 的 transformers 库快速实现代码补全（Code Completion）和代码插入（Code Insertion）推理。

DeepSeek Coder: Let the Code Write Itself