AI I024: Meta开源ShapeR：从无序图像到精准3D重建

2026年1月31日星期六

Meta开源ShapeR：从无序图像到精准3D重建

Meta与西蒙菲莎大学提出ShapeR模型，用于从杂乱无序的图像序列中生成高精度3D对象模型。该方法利用多视角图像、SLAM稀疏点云及文本描述，通过整流变换器与课程学习策略，在复杂遮挡与噪声环境下实现鲁棒的、度量准确的对象级重建。模型完全基于合成数据训练，并可泛化至真实场景。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

Meta与西蒙菲莎大学提出了一种新颖的度量形状生成方法ShapeR，给定一个输入图像序列，预处理部分利用现成的方法提取每个对象的度量稀疏 SLAM 点、图像、姿态和描述信息。然后，一个基于 VecSet 潜在条件的整流变换器 (RFT) 对这些多模态输入进行处理，生成形状编码，并将其解码为对象的网格。通过将模型以对象为中心应用于每个检测到的对象，获得了整个场景的度量重建结果。

unsetunset相关链接unsetunset

论文: https://arxiv.org/abs/2601.11514
项目: http://facebookresearch.github.io/ShapeR
代码: https://github.com/facebookresearch/ShapeR
数据：https://huggingface.co/datasets/facebook/ShapeR-Evaluation

unsetunset工作原理unsetunset

ShapeR 利用多模态输入和鲁棒的训练策略，从图像序列中生成以对象为中心的 3D 重建模型。首先，它使用现成的 SLAM 和 3D 实例检测方法来计算 3D 点云和对象实例。对于每个对象，提取稀疏点云、相关图像、2D 投影和 VLM 描述信息，以此来训练修正流模型，该模型对潜在向量集进行去噪，从而生成 3D 形状。多模态训练、大量的动态组合增强和课程训练确保了 ShapeR 在实际场景中的鲁棒性。

多模态条件反射：ShapeR 条件适用于多种模态，包括对象的摆位多视图图像、SLAM 点、文本描述和 2D 点投影。
成分增强：ShapeR 利用单对象预训练和广泛的增强技术，模拟图像和 SLAM 输入中的真实背景、遮挡和噪声。

两阶段训练：ShapeR 是在 Aria 合成环境场景中以对象为中心的裁剪区域上进行微调的，这些场景具有逼真的图像遮挡、SLAM 点云噪声和对象间交互。

unsetunsetShapeR 评估数据集unsetunset

178 个对象在 7 个序列中的类别分布，以及显示真实网格、代表性帧、对齐网格和 2D 投影的示例。

ShapeR 附带一个全新的评估数据集，该数据集包含 178 个物体在 7 个不同场景下拍摄的真实场景序列，其中包括成对的姿态多视图图像、SLAM 点云以及完整的 3D 形状标注。与现有的真实世界 3D 重建数据集（这些数据集要么是在受控环境下拍摄的，要么存在物体与背景几何形状融合或形状不完整的情况）不同，该数据集旨在捕捉真实世界的挑战，例如遮挡、杂乱环境以及分辨率和视角的变化，从而实现逼真的、真实场景下的评估。

为了获得伪真实值，首先单独捕获物体（左图），然后通过图像到三维建模生成几何体（中图）。之后，将网格手动与原始序列对齐，并与二维投影和点云进行验证（右图）。

unsetunset它与SAM3D对象有何不同？unsetunset

SAM 3D Objects 在形状生成方面取得了显著进步，但它缺乏度量精度，并且需要用户交互。由于它只能利用单个视图，因此有时无法在复杂的场景（例如此处示例所示）中保持正确的纵横比、相对比例和对象布局。ShapeR 利用图像序列和多模态数据（例如 SLAM 点云）解决了这个问题。通过整合多个姿态视图，ShapeR 可以自动生成度量精度高且一致的重建结果。与交互式单图像方法不同，ShapeR 能够稳健地处理随意拍摄的真实场景，无需用户交互即可生成高质量的度量形状和排列。

值得注意的是，ShapeR 完全基于合成数据进行训练，而 SAM 3D 则利用大规模标注的真实图像到 3D 数据。这凸显了两种不同的发展方向：SAM 3D 使用大规模真实数据进行稳健的单视图推理，而 ShapeR 则利用多视图几何约束实现稳健的度量场景重建。

这两种方法可以结合起来。通过用 ShapeR 的输出作为 SAM 3D 第二阶段的条件，可以融合两者的优点：ShapeR 的度量精度和稳健的布局，以及 SAM 3D 的纹理和稳健的真实世界先验信息。

unsetunset非ARIA数据上的性能unsetunset

尽管ShapeR是在基于视觉惯性SLAM点的模拟数据上训练的，但它无需微调即可泛化到其他数据源。例如，它可以重建ScanNet++场景中的完整物体。此外，通过利用MapAnything等工具生成度量点，ShapeR甚至可以从单目图像生成度量三维形状，而无需重新训练。ShapeR 在 ScanNet++ 上的结果显示，即使超出真实扫描场景，也能进行完整的形状预测。

使用 iPhone 拍摄的图像进行重建，利用 Map Anything 获取度量深度图和姿态信息。ShapeR 在此基础上运行以实现场景重建。

unsetunset实验结果unsetunset

unsetunset结论unsetunset

ShapeR是一种多模态条件校正流模型，用于从随意拍摄的序列中稳健地生成3D形状。ShapeR利用姿态图像、稀疏SLAM点和文本线索，无需显式分割即可准确完整地重建物体。大规模训练、广泛的数据增强以及两阶段课程使其能够很好地泛化到真实场景。还提供了ShapeR评估数据集，作为随意拍摄条件下以物体为中心的重建的基准。ShapeR推进了自然环境中可扩展的自动化3D重建。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2026年1月31日星期六

Meta开源ShapeR：从无序图像到精准3D重建

unsetunset相关链接unsetunset

unsetunset工作原理unsetunset

unsetunsetShapeR 评估数据集unsetunset

unsetunset它与SAM3D对象有何不同？unsetunset

unsetunset非ARIA数据上的性能unsetunset

unsetunset实验结果unsetunset

unsetunset结论unsetunset

没有评论:

发表评论

Seedance 2。0 AI视频生成工具免费无限次 15秒故事板真人效果广告大片

标签

2026年1月31日星期六

Meta开源ShapeR：从无序图像到精准3D重建

unsetunset相关链接unsetunset

unsetunset工作原理unsetunset

unsetunsetShapeR 评估数据集unsetunset

unsetunset它与SAM3D对象有何不同？unsetunset

unsetunset非ARIA数据上的性能unsetunset

unsetunset实验结果unsetunset

unsetunset结论unsetunset

没有评论:

发表评论

Seedance 2。0 AI视频生成工具 免费无限次 15秒故事板 真人效果广告大片

Seedance 2。0 AI视频生成工具免费无限次 15秒故事板真人效果广告大片