量子位 03-20
单张照片实现三维重建,单视角室外复杂场景首次攻克
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

单视角三维场景重建一直是计算机视觉领域中的核心挑战之一,尤其在捕捉高保真室外场景细节时,如何确保结构一致性和几何精度显得尤为困难。

过去的一些先进方法,如 Flash3D,虽然已能通过单一深度图像实现较好的效果,但在处理复杂几何结构和细节时仍存在明显不足(尤其是室外场景下尤为明显),如边缘模糊、色彩溢出以及几何失真等问题。

为了解决这一难题,西湖大学王欢教授团队,香港科技大学 Harry Yang 教授团队联合江西理工大学,Everlyn AI, Lancaster University 和 UCF,提出一种名为Niagara单视角三维重建框架

该方法首次有效地将深度信息和表面法线信息结合,提出了一种全新的几何仿射场(Geometric Affine Field, GAF)和三维自注意力机制(3D Self-Attention),实现了从单张图像中精确重建复杂室外场景,显著改善了几何细节的捕捉和视觉真实感。

方法描述

Niagara 框架的关键贡献主要有以下几点:

(1)法线集成深度估计:

利用预训练的法线估计器和深度估计器同时提取图像的法线图和深度图,将两者融合进三维高斯场模型中,显著提高了模型对图像全局的表面细节的敏感性和对预测的三维空间整体的几何一致性。

(2)几何约束模块:

提出一种基于几何约束的隐式特征表示几何仿射场(GAF),通过三个正交平面的仿射投影,结合显式几何(如点云)与隐式特征,能更准确地描述复杂的三维结构;3D 自注意力模块,在传统自注意力基础上进行三维空间扩展,有效捕捉全局几何特征之间的长距离依赖关系,提高模型在大视角变化下的几何一致性。

(3)改进的深度高斯解码器:

基于改进的单视角多层高斯模型,通过预测多层高斯参数引入法线图做误差以更好地处理遮挡和未知表面区域,使渲染的新视角图像更为准确、真实。

上述模块相互协作,共同实现了高精度的三维场景重建。

实验分析

本文主要在 RealEstate10K(RE10K)数据集上进行了实验评估:

1. 定量分析:

Niagara 在 PSNR、SSIM 以及 LPIPS 等各项关键指标上全面优于当前最先进的方法 Flash3D,在单视角重建、插值与外推场景下均表现出色,值得一提的是在外推法上超过现有所有双视角模型成为 SoTA,尤其在复杂室外场景的几何准确性和视觉逼真性上表现明显提升。

2. 定性分析:

实验结果显示,Niagara 模型能有效解决 Flash3D 中出现的几何模糊和色彩溢出问题,恢复出更丰富的细节、更清晰的边界以及更真实的材质纹理。通过消除结构上的失真和色彩溢出伪影,模型生成的室内和室外场景视觉效果明显更佳。

3. 消融研究:

通过逐步移除法线信息、几何仿射场、3D 自注意力模块等进行消融研究,明确验证了每个组件对最终重建效果的关键性贡献,进一步凸显了 Niagara 各模块设计的有效性。

此外,作者还在 KITTI 数据集做额外的 zero-shot 的实验来验证。实验结果表明 Niagara 同样具有更好的跨域泛化性能,也再次验证了 Niagara 在室外场景重建具有更好的性能。

总结与展望

本文提出的 Niagara 框架首次有效解决了单视角下复杂室外场景三维重建中的关键挑战,显著提高了细节捕捉的精度与几何结构的一致性。这种结合深度与法线的框架设计、创新的几何仿射场和三维自注意力机制,为后续单视角重建任务提供了新的研究思路。

未来研究方向包括:探索 Niagara 在更多复杂动态场景和实时重建任务中的应用;进一步优化模型结构,降低计算成本,提高模型效率;引入更多几何或语义信息,继续提升重建的准确性与鲁棒性。

综上,Niagara 不仅在方法论上取得了重要进展,也为实际应用提供了更高性能的三维重建解决方案,具有广泛的应用前景。

论文标题:Niagara: Normal-Integrated Geometric Affine Field for Scene Reconstruction from a Single View

论文链接:https://arxiv.org/abs/2503.12553

模型链接:https://huggingface.co/Xianzu/Niagara

项目链接:https://github.com/xianzuwu/Niagara

网站链接:https://ai-kunkun.github.io/Niagara_page/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

学术投稿请于工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

  点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

高斯 准确 江西理工大学 计算机视觉
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论