Meta与西蒙菲莎大学提出ShapeR模型,用于从杂乱无序的图像序列中生成高精度3D对象模型。该方法利用多视角图像、SLAM稀疏点云及文本描述,通过整流变换器与课程学习策略,在复杂遮挡与噪声环境下实现鲁棒的、度量准确的对象级重建。模型完全基于合成数据训练,并可泛化至真实场景。
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
Meta与西蒙菲莎大学提出了一种新颖的度量形状生成方法ShapeR,给定一个输入图像序列,预处理部分利用现成的方法提取每个对象的度量稀疏 SLAM 点、图像、姿态和描述信息。然后,一个基于 VecSet 潜在条件的整流变换器 (RFT) 对这些多模态输入进行处理,生成形状编码,并将其解码为对象的网格。通过将模型以对象为中心应用于每个检测到的对象,获得了整个场景的度量重建结果。
相关链接
论文: https://arxiv.org/abs/2601.11514 项目: http://facebookresearch.github.io/ShapeR 代码: https://github.com/facebookresearch/ShapeR 数据:https://huggingface.co/datasets/facebook/ShapeR-Evaluation
工作原理
ShapeR 利用多模态输入和鲁棒的训练策略,从图像序列中生成以对象为中心的 3D 重建模型。首先,它使用现成的 SLAM 和 3D 实例检测方法来计算 3D 点云和对象实例。对于每个对象,提取稀疏点云、相关图像、2D 投影和 VLM 描述信息,以此来训练修正流模型,该模型对潜在向量集进行去噪,从而生成 3D 形状。多模态训练、大量的动态组合增强和课程训练确保了 ShapeR 在实际场景中的鲁棒性。
多模态条件反射:ShapeR 条件适用于多种模态,包括对象的摆位多视图图像、SLAM 点、文本描述和 2D 点投影。 成分增强:ShapeR 利用单对象预训练和广泛的增强技术,模拟图像和 SLAM 输入中的真实背景、遮挡和噪声。
两阶段训练:ShapeR 是在 Aria 合成环境场景中以对象为中心的裁剪区域上进行微调的,这些场景具有逼真的图像遮挡、SLAM 点云噪声和对象间交互。
ShapeR 评估数据集
ShapeR 附带一个全新的评估数据集,该数据集包含 178 个物体在 7 个不同场景下拍摄的真实场景序列,其中包括成对的姿态多视图图像、SLAM 点云以及完整的 3D 形状标注。与现有的真实世界 3D 重建数据集(这些数据集要么是在受控环境下拍摄的,要么存在物体与背景几何形状融合或形状不完整的情况)不同,该数据集旨在捕捉真实世界的挑战,例如遮挡、杂乱环境以及分辨率和视角的变化,从而实现逼真的、真实场景下的评估。
它与SAM3D对象有何不同?
SAM 3D Objects 在形状生成方面取得了显著进步,但它缺乏度量精度,并且需要用户交互。由于它只能利用单个视图,因此有时无法在复杂的场景(例如此处示例所示)中保持正确的纵横比、相对比例和对象布局。ShapeR 利用图像序列和多模态数据(例如 SLAM 点云)解决了这个问题。通过整合多个姿态视图,ShapeR 可以自动生成度量精度高且一致的重建结果。与交互式单图像方法不同,ShapeR 能够稳健地处理随意拍摄的真实场景,无需用户交互即可生成高质量的度量形状和排列。
值得注意的是,ShapeR 完全基于合成数据进行训练,而 SAM 3D 则利用大规模标注的真实图像到 3D 数据。这凸显了两种不同的发展方向:SAM 3D 使用大规模真实数据进行稳健的单视图推理,而 ShapeR 则利用多视图几何约束实现稳健的度量场景重建。
这两种方法可以结合起来。通过用 ShapeR 的输出作为 SAM 3D 第二阶段的条件,可以融合两者的优点:ShapeR 的度量精度和稳健的布局,以及 SAM 3D 的纹理和稳健的真实世界先验信息。
非ARIA数据上的性能
尽管ShapeR是在基于视觉惯性SLAM点的模拟数据上训练的,但它无需微调即可泛化到其他数据源。例如,它可以重建ScanNet++场景中的完整物体。此外,通过利用MapAnything等工具生成度量点,ShapeR甚至可以从单目图像生成度量三维形状,而无需重新训练。ShapeR 在 ScanNet++ 上的结果显示,即使超出真实扫描场景,也能进行完整的形状预测。
使用 iPhone 拍摄的图像进行重建,利用 Map Anything 获取度量深度图和姿态信息。ShapeR 在此基础上运行以实现场景重建。
实验结果
结论
ShapeR是一种多模态条件校正流模型,用于从随意拍摄的序列中稳健地生成3D形状。ShapeR利用姿态图像、稀疏SLAM点和文本线索,无需显式分割即可准确完整地重建物体。大规模训练、广泛的数据增强以及两阶段课程使其能够很好地泛化到真实场景。还提供了ShapeR评估数据集,作为随意拍摄条件下以物体为中心的重建的基准。ShapeR推进了自然环境中可扩展的自动化3D重建。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论