2025年4月26日星期六

南洋理工 & 牛津 & 新加坡理工提出Amodal3R,可从遮挡 2D 图像重建完整 3D 资产,3D生成也卷起来了!

Amodal3R 是一种条件式 3D 生成模型,能够从部分可见的 2D 物体图像中推测并重建完整的 3D 形态




Amodal3R 是一种条件式 3D 生成模型,能够从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观,显著提升遮挡场景下的 3D 重建质量。

图片

给定图像中 部分可见的物体,Amodal3R 重建具有合理几何形状和合理外观的语义上有意义的 3D 资产。

相关链接

  • 论文:https://arxiv.org/pdf/2503.13439
  • 主页:https://sm0kywu.github.io/Amodal3R
  • 代码:即将开放...
  • 模型:https://huggingface.co/Sm0kyWu/Amodal3R
  • 试用:https://huggingface.co/spaces/Sm0kyWu/Amodal3R

论文介绍

图片

图片Amodal3R 的示例结果。 给定图像中部分可见的物体(遮挡区域显示为黑色,可见区域显示为红色轮廓),Amodal3R 会生成具有合理几何形状和合理外观的多种语义上有意义的 3D 资产。

大多数基于图像的 3D 对象重建器都假设对象是完全可见的,而忽略了现实场景中常见的遮挡。论文介绍的 Amodal3R 是一种条件 3D 生成模型,旨在从部分观察中重建 3D 对象。从"基础"3D 生成模型开始,并将其扩展为从遮挡对象中恢复合理的 3D 几何形状和外观。作者引入了一种掩模加权多头交叉注意机制,随后是一个遮挡感知注意层,该层明确利用遮挡先验来指导重建过程。论文证明通过仅对合成数据进行训练,Amodal3R 即使在现实场景中存在遮挡的情况下也能学会恢复完整的 3D 对象。它大大优于现有的独立执行 2D 非模态完成然后进行 3D 重建的方法,从而为遮挡感知 3D 重建建立了新的基准。

图片与2D非模态补全+3D重建相比,Amodal3R在遮挡物体的3D重建质量方面取得了更好的效果。目标物体和遮挡物以红色和绿色轮廓标记。

图片

方法

图片方法概述: 给定一张图像作为输入,并在感兴趣的区域中给出提示,Amodal3R 首先使用现成的 2D 分割器提取部分可见的目标对象以及可见性和遮挡蒙版。然后,它应用 DINOv2 提取特征 cdino 作为 3D 重建器的额外条件。为了增强遮挡推理,每个转换器块都包含一个蒙版加权交叉注意力和遮挡感知注意层,确保3D重建器准确感知可见信息,同时有效推断被遮挡部分。

图片Amodal3R 的 Transformer 结构。与原始 TRELLIS 设计相比,我们进一步引入了 mask 加权交叉注意和遮挡感知层。它适用于稀疏结构和 SLAT 扩散模型。

图片3D 一致性蒙版示例。给定一个 3D 网格,我们以与其他三角形不同的颜色渲染选定的三角形,以生成多视图一致性蒙版。它允许评估 处理接触遮挡的多视图方法。(遮挡区域显示为红色。)

结论

Amodal3R 是一种从部分可见的 2D 图像重建完整 3D 形状和外观的新方法。通过构建 mask 加权交叉注意机制和遮挡感知层,以有效利用可见和遮挡信息。与依赖于顺序 2D 完成然后 3D 生成的最先进方法相比,Amodal3R 通过直接在 3D 空间中操作实现了显着更好的性能。此外,在野外图像上的结果表明它在 3D 分解和场景理解中的后续应用潜力,标志着朝着在具有复杂遮挡的现实环境中进行稳健的 3D 资产重建迈出了一步。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

自曝上线前已经发现模型"有些不对劲" 一水 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4o更新后"变谄媚"?后续技术报告来了。 OpenAI一篇新鲜出炉的认错小作文,直接引来上百万网友围观。 CEO奥特曼也做足姿态,第一时...