量子位 10-31
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

人类能自然地感知 3D 世界的几何结构与语义内容 ,但对 AI 而言,这 " 两者兼得 " 一直是巨大挑战。

传统方法将 3D 重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛化 。而新方法试图将 3D 模型与特定的视觉语言模型(VLM)" 锁死 " ,这不仅限制了模型的感知能力(例如,无法区分同一类别的两个不同实例 ),更阻碍了其适应更强下游任务的扩展性 。

现在,NTU 联合 StepFun 提出了 IGGT ( Instance-Grounded Geometry Transformer ) ,一个创新的端到端大型统一 Transformer,首次将空间重建与实例级上下文理解融为一体。

为解决上述问题,本研究的主要贡献在于:

端到端统一框架:

  提出 IGGT,一个大型统一 Transformer,将空间重建和实例级上下文理解的知识统一在同一个模型中进行端到端训练 。

大规模实例数据集: 

构建了一个全新的大规模数据集 InsScene-15K,包含 15K 个场景 、2 亿张图像 ,以及通过新颖数据管线标注的高质量、3D 一致的实例级掩码 。

实例解耦与即插即用: 

首创 " 实例接地的场景理解 " ( Instance-Grounded Scene Understanding ) 范式 。iGGT 不与任何特定 VLM 绑定,而是生成实例掩码作为 " 桥梁 " ,使其能以 " 即插即用 " 的方式与任意 VLMs(如 CLIP, OpenSeg )和 LMMs(如 Qwen-VL 2.5 )无缝集成 。

多应用支持:  该统一表示极大地扩展了下游能力,是首个能同时支持空间跟踪、开放词汇分割和场景问答(QA)的统一模型 。

InsScene-15K 数据集的构建

InsScene-15K 数据集是通过一个新颖的数据管理流程构建的 ,该流程由 SAM2 驱动 ,并整合了三种不同来源的数据,每种来源的处理方式不同。

图 2  InsScene-15K 数据集标注管线总览。

合成数据 ( Synthesis Data - 如 Aria, Infinigen ) :

这是最直接的。在模拟环境中,RGB 图像、深度图、相机位姿和物体级的分割掩码被同时生成 。 由于这些模拟生成的掩码是 " 完美准确的 " ,因此无需任何后处理,直接使用。

真实世界视频采集 ( Video Captured - 如 RE10K ) :

这个流程如图 2 ( a ) 所示,是一个定制化的 SAM2 视频密集预测管线 。 首先,在视频的第 0 帧使用 SAM 生成密集的初始掩码提议 ( Initial Mask Proposals ) 。 然后,使用 SAM2 视频对象分割器将这些掩码在时间上向前传播 ( Propagate Masks Forward ) 。 为了处理新出现的对象或避免漂移,管线会迭代式地添加新关键帧:如果未被覆盖的区域超过阈值,就在新帧上重新运行 SAM 来发现新物体 。 最后,执行一次双向传播 ( Bi-directional Propagation ) 来确保整个视频序列的高度时间一致性 。

真实世界 RGBD 采集 ( RGBD Captured - 如 ScanNet++ ) :

这个流程如图 2 ( b ) 所示,是一个掩码优化流程 ( Mask Refinement Pipeline ) 。 ScanNet++ 自带的 3D 标注是粗糙的 。流程首先将这些 3D 标注投影到 2D 图像,以获得具有一致 ID 的初始 GT 掩码 。 同时,使用 SAM2 为同一张 RGB 图像生成形状精确但没有 ID 的细粒度掩码提议 。 关键步骤是匹配与合并:将 SAM2 生成的精细掩码与投影的粗糙 GT 掩码进行对齐,为精细掩码分配正确的、多视图一致的 ID 。 通过这种方式,管线极大地提升了 2D 掩码的质量,使其既保持了 3D 的 ID 一致性,又具有了 SAM2 级别的形状准确性 。

IGGT 模型的构建

IGGT 架构概览:

输入图像被编码为统一的 Token 表示,随后由几何头(Geometry Head)和实例头(Instance Head)分别处理,以同时生成高质量的几何重建和实例接地的聚类结果。

IGGT 的架构由三部分关键组件构成:

统一 Transformer ( Large Unified Transformer )

遵循 VGGT,模型首先使用预训练的 DINOv2 提取图像块级 Token。随后,通过 24 个注意力模块对多视图图像的 Token 进行 intra-view self-attention 和 global-view cross-attention,将其编码为强大的统一 Token 表示 Ti。

双解码头与跨模态融合 ( Downstream Heads and Cross-Modal Fusion )

统一 Token 被送入两个并行的解码器:

Geometry Head: 继承自 VGGT,负责预测相机参数、深度图和点图。

Instance Head: 采用 DPT-like 架构,解码出实例特征。

Cross-Modal Fusion Block: 为了让实例头感知精细的几何边界,团队设计了一个跨模态融合块。它通过一个窗口滑动交叉注意力 ( sliding window cross attention ) ,将几何头的空间结构特征高效地嵌入到实例表示中,显著增强了实例特征的空间感知能力。

3D 一致性对比监督 ( 3D-Consistent Contrastive Supervision )

为了让模型仅从 2D 输入中学到 3D 一致的实例特征,团队设计了一个多视角对比损失 Lmvc。 该损失的核心思想是:在特征空间中," 拉近 " 来自不同视角但属于同一 3D 实例的像素特征,同时 " 推开 " 属于不同实例的特征。

其中 m ( pi ) 和 m ( pj ) 分别是像素 pi 和 pj 的实例 ID,而 fpi 和 fpj 是其对应的实例特征。

基于实例 Grounded 的场景理解

其核心思想是将 3D 模型的统一表示与下游的特定语言模型(VLMs 或 LMMs)进行 " 解耦 " 。

这与以往的方法不同,以往的方法通常将 3D 模型与特定的语言模型(如 LSeg)" 紧密耦合 " 或 " 强行对齐 ",这限制了模型的感知能力和扩展性 。首先利用无监督聚类(HDBSCAN)将 IGGT 预测的 3D 一致性实例特征分组,从而将场景分割为不同的对象实例 。

这些聚类结果随后被重新投影以生成 3D 一致的 2D 实例掩码 ,这些掩码充当 " 桥梁 " ,实现了与各种 VLMs(如 CLIP、OpenSeg)和 LMMs(如 Qwen2.5-VL)的 " 即插即用 " 式集成 。这种解耦范式极大地扩展了模型的应用范围:

实例空间跟踪 ( Instance Spatial Tracking ) :  利用聚类生成的 3D 一致性掩码,可以在多个不同视角的图像中密集地跟踪和分割特定对象实例,即使在相机大幅运动的情况下也不易丢失目标 。

开放词汇语义分割 ( Open-Vocabulary Semantic Segmentation ) :  实例掩码可以作为 " 提示 "(prompts),被送入任意现成的 VLM(如 OpenSeg) 。VLM 会对每个掩码定义的区域分配一个语义类别,从而实现开放词汇的分割 。

QA 场景定位 ( QA Scene Grounding ) :  这种解耦的实例聚类可以与 LMM(如 GPT-40 或 Qwen-VL 2.5)交互 。例如,可以在多个视图中高亮显示同一个实例的掩码,然后向 LMM 提问,以在 3D 场景中执行以对象为中心的复杂问答任务 。

实证结果

相比于已有的方法,IGGT 是唯一一个能够同时做到重建、理解和跟踪三个任务的模型,并在理解和跟踪指标上大幅提升。

在实例 3D 跟踪任务上,IGGT 的跟踪 IOU 和成功率高达 70% 和 90%,是唯一一个能够成功跟踪物体消失又重新出现的模型

IGGT 与 SAM2 和 SpaTracker+SAM 进行比较。为了清晰起见,所有实例都使用不同的 ID 和颜色进行可视化。

团队同时还针对场景做了充分的可视化实验,可以看出 IGGT 能够生成 3D 一致的基于实例的特征,这些特征在多个视图中保持区分性:同一类别的多个实例在 PCA 空间中呈现相似但可区分的颜色。

将 3D 一致的 PCA 结果与基于实例特征的聚类掩码进行可视化。PCA 中相似的颜色表示实例间的特征相似度更高。对于聚类掩码,同一个对象实例在多个视图中共享相同的颜色。

在 2D / 3D 开放词汇分割任务上,得益于 Instance-grounded paradigm 的特性,可以无缝接入最新的 Vision-Language Model 以提升模型的查询性能。

Scannet 和 Scannet++ 上的 2D 开放词汇分割的定性结果:

Scannet 和 Scannet++ 上的 3D 开放词汇分割的定性结果。

此外,团队还可以利用实例掩码(instance masks)构建视觉提示(visual prompts),并将其接入如 Qwen-VL 等大型多模态模型(LMM),以实现更复杂的针对场景中特定物体的查询与问答任务。相反,即便是当前最先进的 LMM 模型,在处理多视图或三维场景理解方面仍存在显著的局限。

与 vanilla Gemini 2.5 Pro 相比,QA 场景理解的应用:

论文链接:https://arxiv.org/abs/2510.22706

项目主页:https://lifuguan.github.io/IGGT_official

Huggingface:https://huggingface.co/datasets/lifuguan/InsScene-15K

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 准确 建和 词汇
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论