verl：开源大语言模型强化学习训练系统

摘要

verl 是由字节跳动 Seed 团队发起、基于 HybridFlow 架构的开源大语言模型强化学习（RL）训练框架，具备高灵活性、极致吞吐量并支持生产级大规模部署。

核心架构：作为 EuroSys 2025 论文 HybridFlow 的开源版本，采用混合控制器编程模型，开发者只需少量代码即可构建 GRPO、PPO 等复杂的 RL 数据流。
生态无缝集成：解耦了计算与数据依赖。训练端支持 FSDP、FSDP2 和 Megatron-LM；推理生成端支持 vLLM、SGLang 和 HuggingFace Transformers。
丰富的算法与场景支持：支持 PPO、GRPO、DAPO、PRIME 等多种 RL 算法；支持基于模型和基于函数的奖励（适用于数学、编程等验证场景）；支持视觉语言模型（VLM）及多轮工具调用。
极致性能与扩展性：采用 3D-HybridEngine 消除 Actor 模型重分片时的内存冗余并大幅降低通信开销；支持专家并行（Expert Parallelism），最高可扩展至 671B 参数模型（如 DeepSeek-671B）及数百张 GPU。
前沿技术与硬件兼容：支持 Flash Attention 2、序列打包、序列并行（DeepSpeed Ulysses）、LoRA 等优化技术；硬件层面兼容 NVIDIA、AMD (ROCm) 和昇腾 (Ascend)。
生产级验证：已被成功应用于 Doubao-1.5-pro、Seed-Thinking-v1.5 等模型的训练，并在 AIME 2024 等数学/代码基准测试中达到 SOTA 水平。
项目热度与演进：采用 Apache 2.0 开源协议，GitHub 拥有超 1.9 万 Stars；项目已于 2026 年 1 月迁移至独立的 verl-project 组织进行社区化维护。

版本兼容性风险：官方明确警告需避免使用 vLLM 0.7.x 版本，该版本存在 Bug，可能导致内存溢出（OOM）和意外错误（建议升级至 vLLM >= 0.8.2）。
AMD 硬件支持限制：目前在 AMD (ROCm) 硬件上仅支持 FSDP 作为训练引擎，对 Megatron 的支持仍在开发中。
部分功能处于实验/规划阶段：异步与离策略（off-policy）架构、Agent 集成等功能目前仍存放在 experimental 目录下或列于未来路线图中，尚未完全并入主库。

verl: Volcano Engine Reinforcement Learning for LLMs