深度估计准确率冲上0.9，Meta提出VLM³，论证视觉模型天生会学3D，以Qwen3-VL-4B为基础实现多任务的统一建模

超神经HyperAI·2026年06月08日 16:22

在多项任务中媲美甚至超越专家视觉模型

Meta 与普林斯顿大学联合提出了 VLM³，以标准视觉语言模型为基础，通过统一的数据组织方式和训练范式，实现了物体级三维理解、公制深度估计、像素匹配以及相机位姿求解四类任务的统一建模，并系统评估了标准 VLM 在细粒度三维感知中的能力边界。

三维空间感知是自动驾驶、机器人、三维重建等领域的核心基础能力，其目标是从二维图像中恢复真实世界的空间结构、尺度信息与几何关系。与图像分类、目标检测等二维视觉任务相比，三维感知不仅要求语义理解能力，还需要精确的空间推理与几何建模，因此长期以来被视为计算机视觉领域最具挑战性的研究方向之一。

近年来，视觉语言模型（Vision-Language Models, VLMs）凭借统一架构和大规模预训练，在分类、检测、分割等二维任务上取得了显著进展。然而，在深度估计、像素匹配、相机位姿求解等需要精确空间推理的细粒度任务中，标准 VLM 的性能仍难以与专业三维模型匹敌。目前，三维视觉领域尚未形成类似二维视觉中的通用基础模型，主流方法仍然依赖针对具体任务设计的专家模型，包括专门的网络结构、损失函数以及训练策略。

近期研究发现，未经专门三维改造的标准 VLM 已经表现出一定的像素级深度感知能力。这一现象表明，通用视觉语言模型可能具备比预期更强的三维表征能力，也引出了一个值得深入探讨的问题：在不引入额外编码器、视觉提示或任务专属模块的前提下，标准 VLM 能否胜任更广泛的细粒度三维感知任务？

针对这一问题，Meta 与普林斯顿大学联合提出了 VLM³（VLM Cubed）框架。该研究以标准视觉语言模型为基础，通过统一的数据组织方式和训练范式，实现了物体级三维理解、公制深度估计、像素匹配以及相机位姿求解四类任务的统一建模，并系统评估了标准 VLM 在细粒度三维感知中的能力边界。

相关研究成果以「VLM3: Vision Language Models Are Native 3D Learners」为题，已发表于预印本平台 arXiv。

研究亮点：

* 在 SpatialRGPT 评测基准上，VLM³-4B 无需额外编码器，即以更精简的架构超越参数规模更大的 SpatialRGPT-8B。

* 相比此前最优视觉语言模型 DepthLM-7B，VLM³-4B 将平均精度 δ₁ 从 0.84 提升至 0.90，与专业深度估计模型 UnidepthV2 性能持平。

* VLM³ 将基线视觉语言模型的端点误差（EPE）降低一个数量级，性能优于 DKM 和 RoMa 等经典专家模型。

* VLM³ 将 AUC₃₀° 指标从接近随机水平的 5% 大幅提升至 94%，超越 VGGT，并达到与 DA3-Giant 相当的水平。

查看论文：https://hyper.ai/papers/2605.30561

面向多任务三维感知的混合数据集

三维感知任务涉及场景尺度、视角变化、相机参数以及几何关系等多种因素，对训练数据的质量和覆盖范围提出了较高要求。为支撑统一三维表征能力的学习，该研究构建了一套覆盖单视图与多视图场景的混合数据体系，整体涵盖公制深度估计、物体级三维理解，以及像素匹配与相机位姿估计三类任务。

在公制深度估计任务中，研究人员采用大规模多场景混合数据集。基础数据继承自 DepthLM，包含 Argoverse2、Waymo、NuScenes、ScanNet++、Taskonomy、HM3D、Matterport3D 等主流三维场景数据，并进一步引入 1,000万张自建室外街景图像，将训练规模从 1,600 万张扩展至 2,600 万张。最终模型训练共使用约 3,200 万张图像和3.2亿个深度标注点，覆盖室内、室外、街景以及复杂开放环境等多种场景。

与现有工作不同，VLM³ 并未采用均匀采样策略，而是根据数据集规模、学习难度以及泛化价值设计差异化训练权重。实验表明，小规模数据集在混合训练过程中更容易引发过拟合，简单增加数据来源并不一定能带来性能提升。因此，研究团队适当降低了部分小规模数据集的训练权重，以提高整体泛化能力。

物体级三维理解任务完全沿用 SpatialRGPT 所使用的标准数据集，包括约 100 万张训练图像以及配套的定性、定量问答样本。该数据集已成为当前物体级三维理解任务的重要评测基准，其中大量图像缺失相机内参信息，与实际应用场景更加接近，因而能够更真实地反映模型的空间推理能力。

对于像素匹配与相机位姿估计任务，研究团队构建了统一的多视图训练数据集。该数据集整合了 BlendedMVS、DynamicReplica、SailVOS3D、ScanNet++ 等 14 个主流数据源，共包含约 990 万组图像对。为保证训练质量，研究人员仅保留图像间可视重叠区域超过 25% 的样本，同时从 ScanNet++ 中预留 30 个独立场景作为专属测试集，从而避免训练集与测试集之间的数据泄露。数据集权重配置以各数据源原始图像对数量为基础，进一步增强了训练过程的稳定性与适配性。

VLM³ 模型：最小改动原则下的统一三维学习

VLM³ 的设计目标并非构建新的三维视觉架构，而是在保持标准视觉语言模型原生结构不变的前提下，评估其在细粒度三维任务中的潜在能力边界。因此，整个框架遵循「最小改动原则」，不引入额外编码器、专属损失函数或任务定制模块，而是重点从输入表示、空间定位方式和数据组织策略三个方面进行优化。

研究以 Qwen3-VL-4B 作为基础模型，全程采用标准监督微调（Supervised Fine-Tuning, SFT）范式进行训练，与现有视觉语言模型的预训练和微调流程保持一致。这种设计保证了框架能够直接兼容主流 VLM 体系，而无需额外构建专用训练管线。

VLM³ 概述

首先，针对不同数据源之间相机参数不一致的问题，VLM³ 提出了统一的图像标准化策略。研究发现，多源三维数据集之间往往存在显著的相机内参差异，部分网络图片甚至缺失相机参数信息，这会直接影响模型学习空间几何关系的能力。为此，框架将所有输入图像统一映射到标准焦距空间，并对缺失内参的数据利用现有单图像标定模型进行估计，从而减少由成像条件差异带来的分布偏移。

其次，VLM³ 采用了统一的文本化空间定位范式。传统三维视觉模型通常依赖额外视觉提示、渲染标记或专门设计的位置编码模块来完成像素级定位，而 VLM³ 则将图像坐标归一化到统一坐标空间，并以文本形式表达位置关系。通过这种方式，模型能够利用原生语言建模能力完成像素定位、区域定位以及跨视图对应关系学习，而无需引入额外视觉模块。与此同时，单张图像可以同时包含多个定位问答样本，显著提高训练效率。在深度估计任务中，单样本可提供的监督信号相比传统方案提升约 10 倍，而计算开销几乎保持不变。

第三个核心设计是精细化的数据混合策略。与许多依赖复杂网络结构提升性能的方法不同，VLM³ 将优化重点放在数据组织层面。研究团队通过大量实验发现，盲目扩大数据规模或采用均等权重混合训练，往往会导致性能饱和甚至退化。相比之下，根据数据规模和任务特征设计差异化采样策略，能够更有效地提升模型的三维表征能力。因此，数据配比被视为整个框架的重要组成部分，而不仅仅是训练过程中的辅助因素。

基于上述设计，VLM³ 进一步实现了四类三维任务的统一建模。深度估计通过文本化像素定位构建监督样本；物体级三维理解使用文本坐标框替代专用掩码编码器；像素匹配任务将跨视图对应关系转化为坐标预测问题；相机位姿估计则将复杂几何参数拆解为平移距离、平移方向以及旋转角度等文本问答形式。原本依赖不同模型分别处理的任务，最终被统一到标准 VLM 的自回归生成框架之中。

VLM³ 的使用示例

首次令标准视觉语言模型在多项细粒度三维任务上实现高精度三维理解

为了系统评估 VLM³ 的有效性，研究团队围绕公制深度估计、物体级三维理解、像素匹配以及相机位姿估计四类任务开展实验，并分别与通用视觉语言模型和当前主流专家模型进行比较。

在公制深度估计任务中，研究选取 9 个公开数据集与通用 VLM 进行比较，并在 5 个代表性基准上对标当前最优专家模型，以 δ₁ 作为主要评测指标。结果如下表所示，VLM³-4B 全面超过此前代表性方法 DepthLM-7B，平均精度由 0.84 提升至 0.90，在多个数据集上刷新了已有纪录。与此同时，其整体性能已经达到 UnidepthV2、MoGe-2 等专业深度估计模型的水平。

VLM³ 与 VLMs 的比较

在物体级三维理解任务中，研究完全复用了 SpatialRGPT 的评测体系。结果显示，参数规模仅为 4B 的 VLM³ 在定性与定量评测中均超过 8B 规模的 SpatialRGPT。后者依赖额外的掩码编码器完成空间定位，而 VLM³ 仅依靠统一文本定位机制即可获得更优结果，表明统一文本化建模在空间推理任务中具备较强的有效性。

像素匹配任务采用 UFM 评测体系，以端点误差（End Point Error, EPE）作为核心指标。实验结果表明，VLM³ 相较基础 VLM 将误差降低一个数量级，并超过 DKM、RoMa 等经典专家模型，仅略低于当前最优方法 UFM。这说明，统一的文本化建模方式不仅适用于单视图场景，同样能够有效学习跨视图几何对应关系。

VLM³ 与专家视觉模型的对比

在相机位姿估计任务中，研究分别在 ETH3D 和 ScanNet++数据集上采用 AUC₃₀° 指标进行评估。结果显示，VLM³ 将基础 VLM 的性能从接近随机预测水平提升至 94% 的 AUC₃₀°，超过 VGGT、MapAnything 等主流方法，并接近当前最优模型 DA3-Giant 的性能水平。

写在最后

长期以来，三维视觉研究主要沿着「任务驱动」的路线发展：针对深度估计、像素匹配或位姿求解等不同任务分别设计专用模型。VLM³ 则展示了一种不同的可能性——在不引入额外编码器、专属损失函数和复杂视觉提示机制的前提下，仅通过标准化图像处理、文本化空间建模以及精细化数据策略，标准视觉语言模型便能够在多项细粒度三维任务上达到甚至超过部分专家模型的性能。这一研究结果表明，通用视觉语言模型所具备的三维表征能力可能远超此前预期，也为三维视觉从「任务专属优化」走向「统一基础模型」提供了新的实证依据。

本文来自微信公众号“HyperAI超神经”，作者：HyperAI，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。