vggt：荣获 CVPR 2025 最佳论文奖的前馈神经网络

摘要

VGGT (Visual Geometry Grounded Transformer) 是一个荣获 CVPR 2025 最佳论文奖的前馈神经网络，能够在几秒钟内从单张或多张图像中直接推断出场景的全部关键 3D 属性（包括相机内外参、点图、深度图和 3D 点轨迹）。

核心能力：支持从单视图到数百个视图的输入，在几秒内输出 3D 场景属性，且具备出色的零样本单视图重建能力（性能媲美 DepthAnything v2 等专用模型）。
学术荣誉：该项目荣获 CVPR 2025 最佳论文奖（Best Paper Award），目前在 GitHub 拥有超 1.2 万 Star。
商业授权：项目代码已更新为允许商业使用，但必须使用专门的 VGGT-1B-Commercial 权重（需提交申请并自动审批），原始权重仍为非商业用途。
下游集成：支持将预测结果导出为 COLMAP 格式（可选光束法平差 BA），可直接无缝接入 gsplat 等 NeRF 或 3D 高斯溅射（Gaussian Splatting）库。
性能与资源消耗：在单张 NVIDIA H100 GPU 上，处理 1 帧耗时 0.04 秒（占用 1.88 GB 显存），处理 200 帧耗时 8.75 秒（占用 40.63 GB 显存）；推荐使用 Flash Attention 3 以优化性能。
灵活的图像处理：支持通过简单的边界框掩码（将像素值设为 0 或 1）来屏蔽输入帧中不需要的区域（如反光面、天空或水面），无需精确的分割掩码。
项目进展：目前已开源推理、评估和训练代码（支持自定义数据集微调），未来计划发布参数量更小的 VGGT-500M 和 VGGT-200M 模型。

可视化延迟：尽管 VGGT 的重建过程不到 1 秒，但受限于第三方渲染，3D 点云的可视化可能需要数十秒，在图像数量较多时尤为缓慢。
商业使用限制：商业授权严格禁止用于军事应用；且必须使用特定的商业版权重，获取该权重需经过类似 LLaMA 的审批流程。
光束法平差（BA）的权衡：在导出 COLMAP 格式时，若为了加快处理速度而减少 BA 的参数（如降低最大查询点数和查询帧数），可能会导致在复杂场景下的重建鲁棒性下降。

[CVPR 2025 Best Paper Award] VGGT: Visual Geometry Grounded Transformer