摘要

1) 一句话总结 本研究提出了一种名为 MapTrace 的可扩展合成数据生成管道及包含 200 万个问答对的数据集,通过显式的合成数据监督,成功教会了多模态大型语言模型(MLLMs)在地图上进行细粒度的空间推理和路线规划。

2) 关键要点

  • 核心痛点:现有 MLLMs 擅长图像内容识别,但缺乏物理世界的空间基础,难以理解地图的几何与拓扑关系(如路径连通性、不能穿墙),导致路线规划能力薄弱。
  • 数据瓶颈:手工标注像素级精度的地图路径成本极高且难以扩展,且许多高质量的复杂地图受专有版权限制,导致模型缺乏学习“空间语法”的训练数据。
  • 解决方案 (MapTrace):开发了一个全自动合成数据生成管道,并开源了利用 Gemini 2.5 Pro 和 Imagen-4 模型生成的 200 万个地图路线问答对数据集。
  • 四阶段生成管道
    1. 使用 LLM 和文生图模型生成多样化的地图图像。
    2. 通过颜色聚类生成候选路径,并由 AI“掩码评估器”筛选出真实连通的可通行区域。
    3. 将 2D 掩码图像转换为包含节点和边缘的可导航图(Graph)结构。
    4. 使用 Dijkstra 算法计算最短路径,并由 AI“路径评估器”进行最终的逻辑和边界质量把控。
  • 模型性能显著提升:使用 2.3 万条路径的子集进行微调后,模型在 MapBench 基准测试上的路径规划误差(NDTW指标,越低越好)大幅下降。Gemini 2.5 Flash 的 NDTW 从 1.29 降至 0.87;Gemma 3 27B 的 NDTW 从 1.29 降至 1.13,且生成有效路径的成功率提升了 6.4%。
  • AI 评估器可靠性:经人工审查,路径评估器的准确率为 76%(假阳性率 8%),掩码评估器的准确率为 83%(假阳性率 9%)。
  • 未来应用:该空间推理能力可应用于基于视觉的直观导航工具、室内机器人/自主智能体导航,以及为视障人士提供无障碍路径描述。

3) 风险与不足

  • 图像生成瑕疵:生成的地图图像偶尔会出现排版(文字渲染)错误。
  • 路径评估器误差:当背景颜色与路径相似时,容易将背景区域误分类为可通行;在较大开阔区域内容易遗漏细长的有效路径。
  • 掩码评估器误差:因颜色相似会误将背景像素或微小的非路径元素(如文本)包含在正确的掩码中;有时会将细长的有效路径标记为无效。

正文

当你看着一张购物中心或主题公园的地图时,你的大脑会在几秒钟内处理视觉信息,确定你的位置,并规划出到达目的地的最佳路线。你会本能地明白哪些线条是墙壁,哪些是走道。这种基础技能——细粒度的空间推理——对人类来说就像第二天性一样自然。

尽管多模态大型语言模型(MLLMs)取得了令人难以置信的进步,但它们在处理这项特定任务时却常常陷入困境。虽然 MLLMs 可以识别出动物园的照片并列出里面可能有的动物,但它们很难从入口到爬行动物馆规划出一条有效的路线。它们可能会直接穿过动物围栏或礼品店画一条线,完全无视环境的基本物理限制。这暴露了一个关键的缺陷:如今的模型在识别图像内容方面非常出色,但在理解对象之间的几何和拓扑关系时却表现不佳。

为了应对这一挑战,我们在《MapTrace:用于地图路线规划的可扩展数据生成》一文中,引入了一项新任务、新数据集以及合成数据生成管道,旨在教会 MLLMs 在地图上规划路线的基本技能。我们的研究表明,这种在预训练模型中基本缺失的复杂空间能力,是可以通过有针对性的合成数据明确教授的。我们还开源了利用 Gemini 2.5 Pro 和 Imagen-4 模型通过该管道生成的 200 万个问答对(MapTrace 数据集),以鼓励研究社区在这一领域进行深入探索。

核心挑战:缺乏物理世界的空间基础

为什么在地图上规划路线对 AI 模型来说如此困难?归根结底在于数据。MLLMs 从海量的图像和文本数据集中学习,它们学会了将“路径”这个词与人行道和小径的图像联系起来。然而,它们很少接触到能明确教授导航规则的数据——例如路径具有连通性、不能穿墙而过,以及路线是相连点的有序序列。

最直接的教学方法是收集一个包含数百万条手工绘制路径的庞大地图数据集。但是,以像素级精度标注单条路径是一项极其繁琐的工作,将其扩展到训练大型模型所需的规模几乎是不可能的。此外,许多复杂地图的最佳示例(如商场、博物馆和主题公园的地图)都是专有的,很难为了研究目的而收集。

这种数据瓶颈阻碍了技术的进步。如果没有足够的训练示例,模型就会缺乏正确解读地图的“空间语法”。在它们眼里,地图只是一堆杂乱的像素,而不是一个结构化的、可导航的空间。

解决方案:可扩展的合成数据生成管道

为了填补这一数据空白,我们设计了一个全自动、可扩展的管道,利用 Gemini 模型的生成能力来制作多样化的高质量地图。这一过程允许我们对数据的多样性和复杂性进行细粒度控制,生成遵循预期路线并避开不可通行区域的标注路径,而无需收集大规模的真实世界地图。

该管道分为四个自动化且可扩展的阶段,使用 AI 模型同时作为“创造者”和“评估者”,以确保质量并生成像素级的标注:

1. 生成多样化地图 首先,我们使用大型语言模型(LLM)为不同类型的地图生成丰富、具象的提示词。LLM 可以生成从“带有相连栖息地的动物园地图”到“带有中央美食广场的购物中心”,再到“拥有蜿蜒小径穿过不同主题区域的奇幻主题公园”等各种内容。然后,这些文本提示被输入到文本生成图像模型中,渲染成复杂的地图图像。

2. 使用 AI“掩码评估器”识别可通行路径 获得地图图像后,我们需要识别所有“可步行”的区域。我们的系统通过按颜色对像素进行聚类来创建候选路径掩码——本质上就是一张包含所有走道的黑白地图。 但并非每个阴影区域都是有效的路径。因此,我们引入了另一个 MLLM 作为“掩码评估器(Mask Critic)”。它通过同时观察地图图像和候选掩码,来判断该掩码是否代表了一个真实的、连通的路径网络。如果 MLLM 认为候选掩码主要包含有效的可通行区域(如铺砌的人行道、标记的人行横道、仅限步行的路径),则将其标记为高质量。只有这些高质量的掩码才会进入下一阶段。

3. 构建可导航图 在获得了所有可通行区域的清晰掩码后,我们将该 2D 图像转换为更结构化的图(Graph)格式。可以将其想象为创建道路网络的数字版本,其中交叉路口是节点,它们之间的道路是边缘。这种“像素图”捕捉了地图的连通性,使得通过计算来规划路线变得容易。

4. 使用 AI“路径评估器”生成完美路径 最后,我们在每张地图的图结构上随机采样数千个起点和终点。我们使用经典的 Dijkstra 算法来寻找这些点之间的绝对最短路径。然后,我们使用另一个 MLLM 作为“路径评估器(Path Critic)”进行最终的质量检查。该评估器会查看叠加在地图图像上的最终生成路径,并给出通过或拒绝的判定,以确保路线符合逻辑、保持在边界内,并且看起来像人类会选择的路径。

通过这个管道,我们创建了一个包含 200 万张带有有效路径标注的地图图像数据集。虽然生成的图像偶尔会出现排版错误,但本研究主要关注路径的保真度。我们预计,生成式模型的不断进步将在未来的迭代中自然地消除这些瑕疵。

评估结果:空间推理能力的显著提升

那么,使用这种合成数据进行训练真的有效吗?为了找出答案,我们从数据集中提取了一个较小的子集(23,000 条路径),对几个 MLLMs 进行了微调,包括开源的 Gemma 3 27B 和 Gemini 2.5 Flash。随后,我们在 MapBench(一个由模型在训练期间未见过的真实世界地图组成的流行基准测试)上评估了它们的性能。

我们使用归一化动态时间规整(NDTW)指标来测量模型的路径规划误差。这是动态时间规整(DTW)的扩展,用于比较两个速度(或预测点数)可能不同的坐标序列。输出结果除以总路径长度进行归一化,得到最终指标——即两条路径之间的距离,数值越低表示性能越好。

在我们的数据集上进行微调后,模型的能力得到了全面且显著的提升:

  • 微调后的 Gemini 2.5 Flash 模型的 NDTW 显著下降(从 1.29 降至 0.87),取得了最佳的整体性能。
  • 更重要的是,模型变得更加可靠。所有模型生成有效、可解析路径的“成功率”均有所上升。微调后的 Gemma 模型成功率提高了 6.4 个百分点,NDTW 也有所改善(从 1.29 降至 1.13)。

这种显著的改进展现了模型新获得的鲁棒性。这意味着在我们的数据集上训练后,模型不仅在成功时更加准确,而且彻底失败的可能性也大大降低。这些成果证实了我们的核心假设:细粒度的空间推理并不是 MLLMs 的先天属性,而是一项后天习得的技能。只要有正确的显式监督(即使是合成生成的数据),我们就能教会模型理解和导航空间布局。

AI 评估器的性能表现

为了验证 AI 评估器的可靠性,我们进行了人工审查:

  • 路径评估器(Path Critic): 我们在 56 张随机采样的地图中人工审查了 120 个决策,准确率达到 76%,假阳性率(将无效路径标记为“高质量”)为 8%。错误主要源于:1)当背景颜色与路径相似时,将背景区域误分类为可通行;2)遗漏了较大开阔区域内的细长有效路径。
  • 掩码评估器(Mask Critic): 我们检查了 20 张地图上的 200 个判断,准确率为 83%,假阳性率为 9%。常见错误包括:1)由于颜色相似而包含了背景像素;2)将微小的非路径元素(如文本)吸收到了原本正确的掩码中;3)将细长的有效路径标记为无效。

未来展望

对路径和连通性进行推理的能力将解锁众多未来的应用场景,包括:

  • 更直观的导航工具: AI 模型可以查看卫星图像或复杂的地铁地图,并为你提供真正直观、基于视觉的路线指引。
  • 更智能的机器人与自主智能体: 机器人只需查看平面图,就能在仓库、医院或机场等复杂的室内环境中进行导航。
  • 增强无障碍体验: 为视障人士提供清晰、循序渐进的建筑物内部路径描述工具。

(注:本研究由 Artemis Panagopoulou、Mohit Goyal 及 Google 研究团队的其他成员共同完成。)

关联主题