首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

量子位·2025年10月31日 16:26
次将空间重建与实例级上下文理解融为一体

人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言,这“两者兼得”一直是巨大挑战。

传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛化 。而新方法试图将3D模型与特定的视觉语言模型(VLM)“锁死” ,这不仅限制了模型的感知能力(例如,无法区分同一类别的两个不同实例 ),更阻碍了其适应更强下游任务的扩展性 。

现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空间重建与实例级上下文理解融为一体。

为解决上述问题,本研究的主要贡献在于:

  • 端到端统一框架:

 提出IGGT,一个大型统一Transformer,将空间重建和实例级上下文理解的知识统一在同一个模型中进行端到端训练 。

  • 大规模实例数据集: 

构建了一个全新的大规模数据集 InsScene-15K,包含15K个场景 、2亿张图像 ,以及通过新颖数据管线标注的高质量、3D一致的实例级掩码 。

  • 实例解耦与即插即用: 

首创“实例接地的场景理解” (Instance-Grounded Scene Understanding) 范式 。iGGT不与任何特定VLM绑定,而是生成实例掩码作为“桥梁” ,使其能以“即插即用”的方式与任意VLMs(如CLIP, OpenSeg )和LMMs(如Qwen-VL 2.5 )无缝集成 。

多应用支持: 该统一表示极大地扩展了下游能力,是首个能同时支持空间跟踪、开放词汇分割和场景问答(QA)的统一模型 。

InsScene-15K数据集的构建

InsScene-15K 数据集是通过一个新颖的数据管理流程构建的 ,该流程由 SAM2 驱动 ,并整合了三种不同来源的数据,每种来源的处理方式不同。

图2 

合成数据 (Synthesis Data - 如 Aria, Infinigen):

这是最直接的。在模拟环境中,RGB图像、深度图、相机位姿和物体级的分割掩码被同时生成 。 由于这些模拟生成的掩码是“完美准确的” ,因此无需任何后处理,直接使用。

真实世界视频采集 (Video Captured - 如 RE10K):

这个流程如图2(a)所示,是一个定制化的SAM2视频密集预测管线 。 首先,在视频的第0帧使用SAM生成密集的初始掩码提议 (Initial Mask Proposals) 。 然后,使用SAM2视频对象分割器将这些掩码在时间上向前传播 (Propagate Masks Forward) 。 为了处理新出现的对象或避免漂移,管线会迭代式地添加新关键帧:如果未被覆盖的区域超过阈值,就在新帧上重新运行SAM来发现新物体 。 最后,执行一次双向传播 (Bi-directional Propagation) 来确保整个视频序列的高度时间一致性 。

真实世界RGBD采集 (RGBD Captured - 如 ScanNet++):

这个流程如图2(b)所示,是一个掩码优化流程 (Mask Refinement Pipeline) 。 ScanNet++ 自带的3D标注是粗糙的 。流程首先将这些3D标注投影到2D图像,以获得具有一致ID的初始GT掩码 。 同时,使用SAM2为同一张RGB图像生成形状精确但没有ID的细粒度掩码提议 。 关键步骤是匹配与合并:将SAM2生成的精细掩码与投影的粗糙GT掩码进行对齐,为精细掩码分配正确的、多视图一致的ID 。 通过这种方式,管线极大地提升了2D掩码的质量,使其既保持了3D的ID一致性,又具有了SAM2级别的形状准确性 。

IGGT模型的构建

IGGT架构概览:

输入图像被编码为统一的Token表示,随后由几何头(Geometry Head)和实例头(Instance Head)分别处理,以同时生成高质量的几何重建和实例接地的聚类结果。

IGGT 的架构由三部分关键组件构成:

统一 Transformer (Large Unified Transformer)

遵循 VGGT,模型首先使用预训练的 DINOv2 提取图像块级 Token。随后,通过 24 个注意力模块对多视图图像的 Token 进行 intra-view self-attention 和 global-view cross-attention,将其编码为强大的统一 Token 表示 Ti。

双解码头与跨模态融合 (Downstream Heads and Cross-Modal Fusion)

统一 Token 被送入两个并行的解码器:

  • Geometry Head: 继承自 VGGT,负责预测相机参数、深度图和点图。
  • Instance Head: 采用 DPT-like 架构,解码出实例特征。
  • Cross-Modal Fusion Block: 为了让实例头感知精细的几何边界,团队设计了一个跨模态融合块。它通过一个窗口滑动交叉注意力 (sliding window cross attention),将几何头的空间结构特征高效地嵌入到实例表示中,显著增强了实例特征的空间感知能力。

3D 一致性对比监督 (3D-Consistent Contrastive Supervision)

为了让模型仅从 2D 输入中学到 3D 一致的实例特征,团队设计了一个多视角对比损失 Lmvc。 该损失的核心思想是:在特征空间中,“拉近”来自不同视角但属于同一 3D 实例的像素特征,同时“推开”属于不同实例的特征。

其中 m(pi) 和 m(pj) 分别是像素 pi 和 pj 的实例 ID,而 fpi 和 fpj 是其对应的实例特征。

基于实例Grounded的场景理解

其核心思想是将3D模型的统一表示与下游的特定语言模型(VLMs 或 LMMs)进行“解耦” 。

这与以往的方法不同,以往的方法通常将3D模型与特定的语言模型(如LSeg)“紧密耦合”或“强行对齐”,这限制了模型的感知能力和扩展性 。首先利用无监督聚类(HDBSCAN)将IGGT预测的3D一致性实例特征分组,从而将场景分割为不同的对象实例 。

这些聚类结果随后被重新投影以生成3D一致的2D实例掩码 ,这些掩码充当“桥梁” ,实现了与各种VLMs(如CLIP、OpenSeg)和LMMs(如Qwen2.5-VL)的“即插即用”式集成 。这种解耦范式极大地扩展了模型的应用范围:

  • 实例空间跟踪 (Instance Spatial Tracking): 利用聚类生成的3D一致性掩码,可以在多个不同视角的图像中密集地跟踪和分割特定对象实例,即使在相机大幅运动的情况下也不易丢失目标 。
  • 开放词汇语义分割 (Open-Vocabulary Semantic Segmentation): 实例掩码可以作为“提示”(prompts),被送入任意现成的VLM(如OpenSeg) 。VLM会对每个掩码定义的区域分配一个语义类别,从而实现开放词汇的分割 。
  • QA场景定位 (QA Scene Grounding): 这种解耦的实例聚类可以与LMM(如GPT-40或Qwen-VL 2.5)交互 。例如,可以在多个视图中高亮显示同一个实例的掩码,然后向LMM提问,以在3D场景中执行以对象为中心的复杂问答任务 。

实证结果

相比于已有的方法,IGGT是唯一一个能够同时做到重建、理解和跟踪三个任务的模型,并在理解和跟踪指标上大幅提升。

在实例3D跟踪任务上,IGGT的跟踪IOU和成功率高达70%和90%,是唯一一个能够成功跟踪物体消失又重新出现的模型

IGGT与SAM2和SpaTracker+SAM进行比较。为了清晰起见,所有实例都使用不同的 ID 和颜色进行可视化。

团队同时还针对场景做了充分的可视化实验,可以看出IGGT 能够生成3D一致的基于实例的特征,这些特征在多个视图中保持区分性:同一类别的多个实例在 PCA 空间中呈现相似但可区分的颜色。

将3D一致的PCA 结果与基于实例特征的聚类掩码进行可视化。PCA 中相似的颜色表示实例间的特征相似度更高。对于聚类掩码,同一个对象实例在多个视图中共享相同的颜色。

在2D / 3D开放词汇分割任务上,得益于Instance-grounded paradigm的特性,可以无缝接入最新的Vision-Language Model以提升模型的查询性能。

Scannet 和 Scannet++ 上的 2D 开放词汇分割的定性结果:

Scannet 和 Scannet++ 上的 3D 开放词汇分割的定性结果。

此外,团队还可以利用实例掩码(instance masks)构建视觉提示(visual prompts),并将其接入如 Qwen-VL 等大型多模态模型(LMM),以实现更复杂的针对场景中特定物体的查询与问答任务。相反,即便是当前最先进的 LMM 模型,在处理多视图或三维场景理解方面仍存在显著的局限。

与 vanilla Gemini 2.5 Pro 相比,QA 场景理解的应用:

论文链接:https://arxiv.org/abs/2510.22706

项目主页:https://lifuguan.github.io/IGGT_officialHuggingface:https://huggingface.co/datasets/lifuguan/InsScene-15K

本文来自微信公众号“量子位”,作者:iGGT团队 ,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业