2026年1月31日星期六

Meta开源ShapeR:从无序图像到精准3D重建

Meta与西蒙菲莎大学提出ShapeR模型,用于从杂乱无序的图像序列中生成高精度3D对象模型。该方法利用多视角图像、SLAM稀疏点云及文本描述,通过整流变换器与课程学习策略,在复杂遮挡与噪声环境下实现鲁棒的、度量准确的对象级重建。模型完全基于合成数据训练,并可泛化至真实场景。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

Meta与西蒙菲莎大学提出了一种新颖的度量形状生成方法ShapeR,给定一个输入图像序列,预处理部分利用现成的方法提取每个对象的度量稀疏 SLAM 点、图像、姿态和描述信息。然后,一个基于 VecSet 潜在条件的整流变换器 (RFT) 对这些多模态输入进行处理,生成形状编码,并将其解码为对象的网格。通过将模型以对象为中心应用于每个检测到的对象,获得了整个场景的度量重建结果。

图片

unsetunset相关链接unsetunset

图片
  • 论文: https://arxiv.org/abs/2601.11514
  • 项目: http://facebookresearch.github.io/ShapeR
  • 代码: https://github.com/facebookresearch/ShapeR
  • 数据:https://huggingface.co/datasets/facebook/ShapeR-Evaluation

unsetunset工作原理unsetunset

ShapeR 利用多模态输入和鲁棒的训练策略,从图像序列中生成以对象为中心的 3D 重建模型。首先,它使用现成的 SLAM 和 3D 实例检测方法来计算 3D 点云和对象实例。对于每个对象,提取稀疏点云、相关图像、2D 投影和 VLM 描述信息,以此来训练修正流模型,该模型对潜在向量集进行去噪,从而生成 3D 形状。多模态训练、大量的动态组合增强和课程训练确保了 ShapeR 在实际场景中的鲁棒性。

图片
  • 多模态条件反射:ShapeR 条件适用于多种模态,包括对象的摆位多视图图像、SLAM 点、文本描述和 2D 点投影。图片
  • 成分增强:ShapeR 利用单对象预训练和广泛的增强技术,模拟图像和 SLAM 输入中的真实背景、遮挡和噪声。
图片
  • 两阶段训练:ShapeR 是在 Aria 合成环境场景中以对象为中心的裁剪区域上进行微调的,这些场景具有逼真的图像遮挡、SLAM 点云噪声和对象间交互。

unsetunsetShapeR 评估数据集unsetunset

178 个对象在 7 个序列中的类别分布,以及显示真实网格、代表性帧、对齐网格和 2D 投影的示例。
178 个对象在 7 个序列中的类别分布,以及显示真实网格、代表性帧、对齐网格和 2D 投影的示例。

ShapeR 附带一个全新的评估数据集,该数据集包含 178 个物体在 7 个不同场景下拍摄的真实场景序列,其中包括成对的姿态多视图图像、SLAM 点云以及完整的 3D 形状标注。与现有的真实世界 3D 重建数据集(这些数据集要么是在受控环境下拍摄的,要么存在物体与背景几何形状融合或形状不完整的情况)不同,该数据集旨在捕捉真实世界的挑战,例如遮挡、杂乱环境以及分辨率和视角的变化,从而实现逼真的、真实场景下的评估。

为了获得伪真实值,首先单独捕获物体(左图),然后通过图像到三维建模生成几何体(中图)。之后,将网格手动与原始序列对齐,并与二维投影和点云进行验证(右图)。
为了获得伪真实值,首先单独捕获物体(左图),然后通过图像到三维建模生成几何体(中图)。之后,将网格手动与原始序列对齐,并与二维投影和点云进行验证(右图)。

unsetunset它与SAM3D对象有何不同?unsetunset

SAM 3D Objects 在形状生成方面取得了显著进步,但它缺乏度量精度,并且需要用户交互。由于它只能利用单个视图,因此有时无法在复杂的场景(例如此处示例所示)中保持正确的纵横比、相对比例和对象布局。图片ShapeR 利用图像序列和多模态数据(例如 SLAM 点云)解决了这个问题。通过整合多个姿态视图,ShapeR 可以自动生成度量精度高且一致的重建结果。与交互式单图像方法不同,ShapeR 能够稳健地处理随意拍摄的真实场景,无需用户交互即可生成高质量的度量形状和排列。

值得注意的是,ShapeR 完全基于合成数据进行训练,而 SAM 3D 则利用大规模标注的真实图像到 3D 数据。这凸显了两种不同的发展方向:SAM 3D 使用大规模真实数据进行稳健的单视图推理,而 ShapeR 则利用多视图几何约束实现稳健的度量场景重建。

这两种方法可以结合起来。通过用 ShapeR 的输出作为 SAM 3D 第二阶段的条件,可以融合两者的优点:ShapeR 的度量精度和稳健的布局,以及 SAM 3D 的纹理和稳健的真实世界先验信息。

unsetunset非ARIA数据上的性能unsetunset

尽管ShapeR是在基于视觉惯性SLAM点的模拟数据上训练的,但它无需微调即可泛化到其他数据源。例如,它可以重建ScanNet++场景中的完整物体。此外,通过利用MapAnything等工具生成度量点,ShapeR甚至可以从单目图像生成度量三维形状,而无需重新训练。图片ShapeR 在 ScanNet++ 上的结果显示,即使超出真实扫描场景,也能进行完整的形状预测。

图片使用 iPhone 拍摄的图像进行重建,利用 Map Anything 获取度量深度图和姿态信息。ShapeR 在此基础上运行以实现场景重建。

unsetunset实验结果unsetunset

图片
图片
图片

unsetunset结论unsetunset

ShapeR是一种多模态条件校正流模型,用于从随意拍摄的序列中稳健地生成3D形状。ShapeR利用姿态图像、稀疏SLAM点和文本线索,无需显式分割即可准确完整地重建物体。大规模训练、广泛的数据增强以及两阶段课程使其能够很好地泛化到真实场景。还提供了ShapeR评估数据集,作为随意拍摄条件下以物体为中心的重建的基准。ShapeR推进了自然环境中可扩展的自动化3D重建。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

LTX-2 AI视频生成工具V1。1发布,支持文字图片转视频及自定义音频,数字人可说话唱歌,速度快效果好

工具免费分享多年,现升级推出付费圈子,提供工具、答疑及软件开发课程,助你掌握AI技能 一 、下载 进入小程序里有。 二 、更新记录 V1.1版本:2026-1-31 1、加入文字、图片生成视频,支持自定义音频说话唱歌等。 V1.0版本:2026-1-11 1、基于LTX-2项...