AlpamayoR1：用于自动驾驶的大型因果推理模型

摘要

1) 一句话总结

英伟达推出的 AlpamayoR1 是一种端到端自动驾驶架构，它以大型视觉语言模型（Cosmos-Reason）为骨干网络，结合因果链推理、双重轨迹表示和强化学习后训练，在单张 Blackwell GPU 上实现了 99 毫秒的低延迟驾驶决策。

2) 关键要点

硬件与性能：架构针对实际部署进行了优化，在单张 Blackwell GPU 上的推理延迟仅为 99 毫秒（10Hz）。
推理骨干网络：基于 Cosmos-Reason VLM 构建，训练数据包含 370 万个通用视觉问答（VQA）样本和 2.47 万个带有 DeepSeek-R1 推理轨迹的驾驶样本。
输入与输出：模型接收标记化的摄像头画面、自然语言指令及自车历史状态（坐标和角度），输出因果链推理轨迹以指导行驶。
因果链数据集：为解决 VLM 的因果混淆问题，构建了包含 20 秒真实驾驶片段的数据集，采用严格模板进行因果一致性文本标注（前 10% 人工标注，其余由 GPT-5 标注）。
轨迹解码机制：采用单轮车动力学（生成加速度和转向角）解码出 64 个点的行驶轨迹，以防止生成物理上不可能的路线。
双重轨迹表示：训练时自回归生成离散标记（便于强化学习优化和动作-推理耦合），推理时通过“动作专家”利用流匹配（flow-matching）一次性生成平滑的连续轨迹以降低延迟。
强化学习后训练：在监督微调（SFT）之后，使用 GRPO 算法进行强化学习，通过无基线方法稳定训练，并使用 KL 散度进行正则化。
多维度奖励信号：强化学习包含三个奖励：DeepSeek-R1 评估的推理质量（0-5分）、基于规则的推理-动作一致性（1或0分），以及轨迹质量（L2距离及碰撞/颠簸惩罚）。

3) 风险与不足

评估缺乏基准对比：开环和闭环测试均在与模型同时发布的自有数据集上进行，缺乏与其他前沿架构的基准对比；闭环测试仅在 75 个场景中与无推理基线对比，平均优势仅约 1% 且方差更大。
研究可重复性受限：构建因果链所需的数据集收集和标注工作成本极高，在这些数据集完全公开之前，外部人员难以复现该研究。

正文

最近，英伟达（Nvidia）推出了全新的 AlpamayoR1 架构，将大型视觉语言模型（VLM）作为基于因果关系的推理骨干网络，在自动驾驶领域引起了轰动。此次发布还伴随了一个大规模数据集和逼真的驾驶模拟器，使该公司在2026年成为该领域的主要参与者之一。本文将详细解析 AlpamayoR1 的架构、因果链推理（Chain of Causation reasoning）以及其复杂的训练过程。

自动驾驶的现状

AlpamayoR1（简称 AR1）的发布契合了当前端到端（E2E）架构的发展趋势。端到端模型旨在通过优化统一目标的完全可微架构，将原始传感器输入（摄像头、激光雷达、雷达等）直接映射为驾驶轨迹。

目前端到端领域的一个新兴趋势是利用大型视觉语言模型（VLM）丰富的世界知识来处理复杂的驾驶场景。这通常涉及将 VLM 作为推理骨干网络来指导未来的行驶轨迹，或者将其作为专家教师为较小的学生模型提供监督信号。

AR1 架构解析

AR1 是“推理 VLM 作为骨干网络”方法的典型代表。尽管模型规模庞大，但该架构针对实际部署进行了优化，在单张 Blackwell GPU 上的延迟仅为 99 毫秒（即 10Hz），这被认为是满足安全要求的通用目标。

视觉编码器

AR1 使用标记化（tokenised）的摄像头画面和自然语言指令作为视觉与文本输入。为了保证性能，视觉编码器必须尽可能少地生成标记。为此，研究人员使用了视觉 Transformer（ViT）进行单图像标记化。ViT 将图像分割成一系列由常规 Transformer 编码的标记。需要注意的是，集成如 Flex 等更高效的多视频标记化算法将是未来的研究方向。

推理骨干网络

AR1 架构基于 Cosmos-Reason 构建，这是英伟达专门为物理 AI（Physical AI）用例中的具身推理而训练的 VLM 之一。其常规训练集包含 370 万个通用视觉问答（VQA）样本，以提升模型的物理常识；此外还补充了 2.47 万个驾驶样本。这些驾驶样本包含了带有 DeepSeek-R1 推理轨迹的视频 VQA，用于预测下一步动作。

Cosmos-Reason 处理视觉和文本标记以及近期的自车历史状态（自车过去的 x-y 坐标和角度），从而输出因果链推理轨迹以指导未来的行驶轨迹。

因果链（Chain of Causation）

语言模型的一个关键局限在于视觉数据集中文本标签固有的歧义性。这些模糊的描述缺乏因果结构，导致在这些数据上训练的模型，其推理轨迹与预测动作之间的相关性较低，并容易产生因果混淆。

对于像自动驾驶汽车这样的具身智能体来说，强大的因果推理能力至关重要。为了规避这些问题，英伟达团队投入了大量精力，创建了一个具有因果一致性注释的驾驶数据集。

具体而言，该数据集包含从不同环境和国家的真实驾驶记录中提取的 20 秒片段。每个片段包含 2 秒的上下文，随后是驾驶决策（例如超车、让行、通过路口等）及其后果。这些场景的因果结构通过遵循严格模板的一致性文本注释得以展现。数据集的前 10% 由人工标注，其余部分则由 GPT5 等最先进的 VLM 进行标注以扩大规模。团队同样投入了大量精力来确保这些人工和 AI 标注的一致性、质量和正确性。

轨迹解码器

前向传播的最后一步是将推理轨迹解码为 64 个点的行驶轨迹。虽然轨迹通常被解码为一系列航点（x-y 坐标），但英伟达团队发现，使用单轮车动力学（即生成一系列加速度值和转向角）能产生更一致的结果。特别是，它通过防止模型预测物理上不可能的轨迹（例如点 t 距离点 t+1 太远），简化了学习任务。

有趣的是，作者采用了轨迹的双重表示：在训练期间自回归地生成离散标记，而在推理时使用流匹配（flow-matching）生成连续轨迹。这种设计的主要原因如下：

联合动作-推理标记空间：使用离散的动作标记可以使推理轨迹与动作之间实现更紧密的耦合。当模型生成推理轨迹时，序列中的后续标记（加速度和曲率）在数学上与该解释相关联，从而防止幻觉。
促进强化学习（RL）优化：将可能的动作标记限制为离散集合，大大简化了 RL 优化。从离散词汇表中采样正确的标记（例如 ACCEL_NEG_2）比为连续值（如 -2.145 m/s²）提供梯度要容易得多。这使得 RL 后训练成为可能，这对于提高模型的安全性和一致性至关重要。
更强的监督信号：在离散标记上使用交叉熵损失类似于分类任务，比在坐标上使用均方误差（MSE）损失更能捕捉多模态特性（例如左转或右转的不同概率）。
用于推理的流匹配：虽然离散标记非常适合学习，但它们通常会导致轨迹不平滑。此外，自回归地生成 128 个标记的序列对于实时推理来说太慢了。为了解决这些局限性，作者引入了一个“动作专家”：主架构的一个较小变体，它利用 KV 缓存（包含视觉标记、历史运动和推理轨迹），通过流匹配扩散在一次传递中解码出连续轨迹。这也是 AR1 能够实现如此低延迟的主要原因之一。

监督微调与强化学习后训练

为了将 VLM 骨干网络转化为高性能的驾驶策略，模型在因果链数据集上进行了监督微调（SFT）。具体来说，它通过最大化动作-推理序列的对数似然，学习重现推理轨迹和相关的真实动作。

然而，仅靠 SFT 是不够的。众所周知，VLM 的推理与预测动作之间往往存在差异。开环数据集的静态特性允许模型模仿推理轨迹，但缺乏环境反馈阻碍了它们真正内化因果反应。

幸运的是，强化学习（RL）后训练通过提供模型展开（rollouts）的推理反馈来缓解这些局限性。在本文中，作者将 RL 用于三个主要目的：

提高推理质量：使用大型推理模型（如 DeepSeek-R1）评估 AR1 的推理轨迹，确保没有不一致或幻觉，并相应地分配 0 到 5 分的离散奖励。虽然 DeepSeek 可能无法生成高质量的驾驶推理轨迹，但评估 AR1 的推理要容易得多，这被称为“生成-验证差距”。
强制推理-动作一致性：作者使用基于规则的系统从因果链数据集中提取元动作（加速、转向、直行等）。如果这些元动作与推理轨迹中提到的动作相符，模型将获得 1 的额外奖励，否则为 0。
轨迹质量：轨迹奖励衡量预测轨迹与专家轨迹之间的 L2 距离，并对导致碰撞和大幅度颠簸的轨迹进行惩罚。

在后训练期间，AR1 生成多个并行的展开，并基于上述三个奖励信号收集奖励。然后使用这些奖励来计算 GRPO 损失。GRPO 计算每个展开相对于组平均值的优势。这种无基线方法（与 PPO 等其他 RL 算法相反）通过奖励针对同一输入表现优于同类的推理路径来稳定训练，而不是依赖任意的绝对分数。

该目标旨在最大化具有较高相对优势的轨迹的概率。为了避免丢失 VLM 的视觉-语言先验知识以及在 SFT 期间获得的驾驶知识，该目标通过当前策略与参考策略（SFT 结束时获得的策略）之间的 KL 散度进行正则化。

评估与局限性

评估协议包括四个部分：开环轨迹预测、闭环模拟、消融研究和车载道路测试。尽管 AR1 在真实世界场景中的部署令人印象深刻，但开环和闭环的结果在某种程度上不够透明；主要原因是这些结果是在与模型同时发布的英伟达数据集（闭环：PhysicalAI-AV 数据集，闭环：AlpaSim）上获得的。这意味着缺乏基准来对比 AR1 的性能。

例如，闭环结果仅在 75 个场景中对比了 AR1 和一个无推理的基线模型。虽然 AR1 在所有测量指标上都优于基线，但平均优势通常只有 1%，且方差比基线大得多。因此，在其他前沿架构在 AlpaSim 中进行评估之前，建议对这些结果保持审慎态度。

结论

尽管缺乏充分对比的评估结果，AR1 及其配套数据集仍然是一项令人印象深刻的工程成就，并很好地指明了自动驾驶的发展方向：端到端模型将从在具身任务上训练的大型 VLM 中继承世界知识。

然而，实现因果链所需的基于因果关系的数据集收集工作需要巨额投资和标注精力，这在这些数据集公开之前限制了研究的可重复性。未来，将 AR1 方法与完全摒弃文本标签、转而在潜在空间中训练 VLM 进行行动和推理的其他最先进模型进行对比，将是一个值得关注的方向。

wsl-docs

探索