AlpamayoR1：用于自动驾驶的大型因果推理模型

摘要

1) 一句话总结 英伟达推出的 AlpamayoR1 是一种端到端自动驾驶架构，它以大型视觉语言模型（VLM）为因果推理主干，结合离散-连续双重轨迹表示与强化学习后训练，实现了低延迟的轨迹预测。

2) 核心要点

硬件与性能指标：该架构针对实际部署进行了优化，在单张 Blackwell GPU 上的推理延迟仅为 99 毫秒（10Hz）。
视觉编码：采用视觉 Transformer（ViT）将摄像头画面和自然语言指令处理为 token。
推理主干网络：核心为 Cosmos-Reason 模型，其训练集包含 370 万个通用视觉问答（VQA）样本和 2.47 万个带有 DeepSeek-R1 注释的驾驶样本。
因果链数据集：为解决 VLM 的因果混淆问题，构建了包含 20 秒真实驾驶片段的专属数据集（前 10% 人工标注，其余由 GPT-5 标注）以提供因果一致性注释。
轨迹解码设计：采用单轮车动力学（加速度和转向角）生成 64 个点的行驶轨迹，以防止模型预测出物理上不可能的路线。
双重轨迹表示：训练时自回归生成离散 token（便于强化学习优化和动作-推理对齐），推理时利用“动作专家”通过流匹配（flow-matching）一次性生成平滑的连续轨迹。
强化学习后训练：在监督微调（SFT）之后，使用 GRPO 算法进行强化学习，奖励信号包括：DeepSeek-R1 评估的推理质量（0-5分）、推理-动作一致性（0或1分）以及轨迹质量（L2距离及碰撞/颠簸惩罚）。

3) 风险与不足

评估缺乏横向对比：开环和闭环测试均在英伟达自有数据集（PhysicalAI-AV 和 AlpaSim）上进行，目前缺乏与其他前沿架构对比的基线。
闭环优势微弱且方差大：在 75 个闭环场景的对比测试中，AR1 相比无推理基线模型的平均优势仅约 1%，且表现出的方差比基线更大。
可重复性受限：构建支持因果链推理的数据集需要巨大的投资和标注成本，在这些数据集正式公开之前，该方法的复现难度极高。

正文

近期，英伟达（Nvidia）推出了全新的 AlpamayoR1 架构，将大型视觉语言模型（VLM）作为基于因果关系的推理主干网络，在自动驾驶领域引起了轰动。此次发布还伴随了一个新的大规模数据集和一个逼真的驾驶模拟器，使该公司在2026年成为该领域的主要参与者之一。

本文将深入解析 AlpamayoR1 架构、因果链（Chain of Causation）推理机制，以及用于训练该模型的复杂流程。

自动驾驶的现状

AlpamayoR1（简称 AR1）的发布契合了当前端到端（E2E）架构的发展趋势。端到端模型旨在通过优化统一目标的完全可微架构，将原始传感器输入（摄像头、激光雷达、雷达等）直接映射为行驶轨迹。

目前端到端领域的一个新兴趋势是利用大型视觉语言模型（VLM）丰富的世界知识来处理复杂的驾驶场景。这通常包括将 VLM 作为推理主干来指导未来的轨迹，或者作为专家教师为较小的学生模型提供监督信号。

AR1 架构解析

AR1 是“推理 VLM 作为主干网络”方法的典型代表。尽管模型规模庞大，但该架构针对实际部署进行了优化，在单张 Blackwell GPU 上的延迟仅为 99 毫秒（即 10Hz），这被认为是出于安全考虑的通用目标指标。该架构包含多项创新设计：

视觉编码器 (Vision Encoder)

AR1 使用标记化（tokenised）的摄像头画面和自然语言指令作为视觉和文本输入。为了保证性能，视觉编码器必须尽可能少地生成 token。为此，研究人员使用了视觉 Transformer（ViT）进行单图像标记化。ViT 将图像分割成一系列 token，并由常规 Transformer 进行编码。（注：集成如 Flex 等更高效的多视频标记化算法将留待未来研究）。

推理主干网络 (Reasoning Backbone)

AR1 架构的核心是 Cosmos-Reason，这是英伟达专门为物理 AI 用例中的具身推理而训练的 VLM 之一。其常规训练集包含 370 万个通用视觉问答（VQA）样本以提升模型的物理常识，同时补充了 2.47 万个驾驶样本。这些驾驶样本包含了带有 DeepSeek-R1 推理轨迹注释的视频 VQA，用于预测下一步动作。

Cosmos-Reason 处理视觉和文本 token 以及近期的自车历史状态（自车过去的 x-y 坐标和角度），从而输出因果链推理轨迹以指导未来的行驶轨迹。

因果链 (Chain of Causation)

语言模型的一个关键局限在于视觉数据集中文本标签固有的歧义性，包括缺乏因果结构的模糊描述。在这些数据上训练的模型，其推理轨迹与预测动作之间的相关性较低，且容易出现因果混淆。

对于自动驾驶汽车这样的具身智能体来说，强大的因果推理能力至关重要。为了规避这些问题，英伟达团队投入了大量精力创建了一个具有因果一致性注释的驾驶数据集。

具体而言，该数据集包含从不同环境和国家的真实驾驶记录中提取的 20 秒片段。每个片段包含 2 秒的上下文，随后是驾驶决策（如超车、让行、通过路口等）及其后果。这些场景的因果结构通过遵循严格模板的一致性文本注释得以展现。数据集中前 10% 由人工标注，其余部分则由 GPT5 等最先进的 VLM 标注以扩大规模。团队同样投入了大量精力来确保这些人工和 AI 标注的一致性、质量和准确性。

轨迹解码器 (Trajectory Decoder)

前向传播的最后一步是将推理轨迹解码为 64 个点的行驶轨迹。虽然轨迹通常被解码为一系列航点（x-y 坐标），但英伟达团队发现，使用单轮车动力学（即生成一系列加速度值和转向角）能产生更一致的结果。特别是，它通过防止模型预测物理上不可能的轨迹（例如时间点 t 距离 t+1 太远），简化了学习任务。

有趣的是，研究人员对轨迹采用了双重表示：模型在训练期间自回归地生成离散 token，而在推理时则使用流匹配（flow-matching）生成连续轨迹。这种设计的主要原因如下：

联合的动作-推理 Token 空间：使用离散的动作 token 可以使推理轨迹和动作之间结合得更紧密。当模型生成推理轨迹时，序列中的后续 token（加速度和曲率）在数学上与该解释相关联，从而防止幻觉。
简化强化学习 (RL) 优化：将可能的动作 token 限制在离散集合中，使 RL 优化变得容易得多。从离散词汇表中采样正确的 token（例如 ACCEL_NEG_2）比为连续值（如 -2.145 m/s²）提供梯度要简单得多。这使得 RL 后训练成为可能，这对于提高模型的安全性和一致性至关重要。
更强的监督信号：对离散 token 使用交叉熵损失类似于分类任务，比对坐标使用均方误差（MSE）损失更能捕捉多模态特性（例如左转或右转的不同概率）。
用于推理的流匹配：虽然离散 token 非常适合学习，但它们通常会导致轨迹不平滑。此外，自回归地生成 128 个 token 的序列对于实时推理来说太慢了。为了解决这些限制，研究人员引入了一个“动作专家”：主架构的一个较小变体，它利用 KV 缓存（包含视觉 token、历史运动和推理轨迹），通过流匹配扩散在一次传递中解码出连续轨迹。这也是 AR1 能够实现如此低延迟的主要原因之一。

监督微调与强化学习后训练

为了将 VLM 主干网络转化为高性能的驾驶策略，模型在因果链数据集上进行了监督微调（SFT）。具体来说，它通过最大化动作-推理序列的对数似然，学习重现推理轨迹和相关的真实动作。

然而，仅靠 SFT 是不够的。众所周知，VLM 的推理和预测动作之间存在差异。开环数据集的静态特性允许模型模仿推理轨迹，但缺乏环境反馈阻碍了它们真正内化因果反应。

幸运的是，强化学习（RL）后训练通过提供模型推演的推理反馈来缓解这些限制。在本文中，RL 主要用于三个目的：

提升推理质量：一个大型推理模型（如 DeepSeek-R1）会评估 AR1 的推理轨迹，确保没有不一致或幻觉，并相应地给出 0 到 5 分的离散奖励。虽然不指望 DeepSeek 能够生成高质量的驾驶推理轨迹，但评估 AR1 的推理要容易得多，这被称为“生成-验证差距”。
强制推理-动作一致性：研究人员使用基于规则的系统从因果链数据集中提取元动作（加速、转向、直行等）。如果这些元动作与推理轨迹中提到的动作一致，模型将获得额外的 1 分奖励，否则为 0 分。
轨迹质量：轨迹奖励测量预测轨迹与专家轨迹之间的 L2 距离，并对导致碰撞和大幅度颠簸的轨迹进行惩罚。

在后训练期间，AR1 生成多个平行的推演，并根据上述三个奖励信号收集奖励。然后使用这些奖励来计算 GRPO 损失。GRPO 计算每次推演相对于组平均值的优势。这种无基线的方法（与 PPO 等其他 RL 算法不同）通过奖励针对同一输入表现优于同类的推理路径来稳定训练，而不是依赖于任意的绝对分数。

该目标旨在最大化具有高优势的轨迹的概率。为了避免丢失 VLM 的视觉语言先验知识和 SFT 期间获得的驾驶知识，该目标通过当前策略与参考策略（SFT 结束时获得的策略）之间的 KL 散度进行正则化。

模型评估

评估协议包括四个部分：开环轨迹预测、闭环模拟、消融研究和车载道路测试。虽然 AR1 在真实场景中的部署令人印象深刻，但开环和闭环的结果相对不够透明。主要原因是这些结果是在与模型同时发布的英伟达自有数据集（闭环：PhysicalAI-AV 数据集，闭环：AlpaSim）上获得的。这意味着缺乏基线来对比 AR1 的性能。

例如，闭环结果仅在 75 个场景中对比了 AR1 和一个无推理的基线模型。虽然 AR1 在所有测量指标上都优于基线，但平均优势通常只有 1%，而且方差比基线大得多。

因此，在其他前沿架构在 AlpaSim 中进行评估之前，建议对这些结果保持审慎态度。

结论

尽管缺乏横向对比的评估结果，AR1 及其配套数据集仍然是一项令人印象深刻的工程成就，并很好地指明了自动驾驶的发展方向：端到端模型从在具身任务上训练的超大型 VLM 中继承世界知识。

然而，收集支持因果链推理所需的因果基础数据集需要巨大的投资和标注工作，这在这些数据集公开之前限制了其可重复性。在下一篇文章中，我们将把 AR1 方法与另一种最先进的模型进行对比，后者完全摒弃了文本标签，而是训练 VLM 在潜在空间中进行动作和推理。

参考资料

[1] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail
[2] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (Vision Transformer)
[3] Towards Efficient and Effective Multi-Camera Encoding for End-to-End Driving (Flex)
[4] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (GRPO loss)

wsl-docs

探索