2026年1月21日星期三

Mesh4D:单目4D网格重建,实现精准形变预测

Mesh4D模型基于单目RGB视频,能生成完整动画3D网格及其形变。它通过自编码器学习紧凑潜在空间,结合骨骼结构先验,并利用潜在扩散模型一次性预测完整动画。评估显示,该模型在3D形状与形变恢复上优于现有方法。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

论文提出 Mesh4D 前馈模型用于单目 4D 网格重建。它构建紧凑潜在空间,由自编码器以骨骼结构为指导学习,推理无需骨骼信息,编码器采用时空注意力机制稳定表示形变。基于此,训练潜在扩散模型,以输入视频和首帧重建网格为条件,一次性预测完整动画。经评估,在恢复精确 3D 形状和形变上,Mesh4D 表现优于现有方法。

标题 《Mesh4D:单目 4D 网格重建新突破,性能超越现有方法》 《Mesh4D 模型:无需骨骼信息,高效实现单目 4D 网格重建》 《创新 Mesh4D:解锁单目 4D 网格重建的精准形变预测》

以单目 RGB 视频作为输入,Mesh4D 生成完整的动画 3D 网格及其变形。

图片

unsetunset相关链接unsetunset

图片
  • 论文:https://arxiv.org/abs/2601.05251
  • 主页:https://mesh-4d.github.io
  • 代码:https://github.com/jzr99/Mesh4D(已开源)

unsetunset介绍unsetunset

论文提出了一种名为 Mesh4D 的前馈模型,用于单目 4D 网格重建。给定一个动态物体的单目视频,模型能够重建物体的完整 3D 形状和运动,并将其表示为形变场。主要贡献在于构建了一个紧凑的潜在空间,该空间能够在一次训练过程中编码整个动画序列。这个潜在空间由一个自编码器学习,该自编码器在训练过程中以训练对象的骨骼结构为指导,从而为可能的形变提供强有力的先验信息。至关重要的是,在推理阶段不需要骨骼信息。该编码器采用了时空注意力机制,从而能够更稳定地表示物体的整体形变。基于此表示,论文训练了一个潜在扩散模型,该模型以输入视频和从第一帧重建的网格为条件,能够一次性预测完整的动画。在重建和新视图合成基准测试中评估了 Mesh4D,结果表明,在恢复精确的 3D 形状和形变方面,Mesh4D 的性能优于现有方法。

unsetunset方法概述unsetunset

图片整体形变 VAE 流程。(左图)给定一系列 3D 网格作为输入,首先对对应点进行均匀采样。然后使用掩码自注意力机制和交叉注意力机制注入骨架信息。接下来,在空间维度上执行最远点采样 (FPS) 以压缩潜在信息,之后是 8 层时空注意力机制。形变场由时空注意力机制层解码,最后是交叉注意力机制,其中规范顶点作为查询点。(右图)每个时空注意力层依次执行时间注意力、全局注意力和空间注意力。对于时间注意力和全局注意力,还在时间维度上应用了一维 RoPE 嵌入。

图片整体形变扩散模型流程。基于HY3D 2.1形状扩散模型构建该模型,并添加了空间和时间嵌入以及交叉注意力层,以使形变场的生成与规范网格和输入视频相匹配。

unsetunset实验结果unsetunset

图片几何重建的定性结果。图中展示了法线图和误差图(越蓝越好)。HY3D 2.1 由于缺乏时间信息,其姿态和形状估计不够精确。得益于时空注意力机制,论文方法能够根据给定的输入帧重建出姿态精确、形状相似的网格。

图片关于新视角合成的定性结果。所有最先进的方法都存在姿态估计不准确的问题,要么是由于缺乏时间注意力(HY3D),要么是由于忽略了几何监督的重要性(GVDF,L4GM)。基于 3D-GS 的方法有时会出现重影,因为它们在变形过程中缺乏拓扑约束,而逐帧重建方法会产生不一致的形状和纹理。此外,通过利用大规模重建方法,避免了预测极不准确的规范网格。得益于骨骼信息和时空注意力,Mesh4D 能够重建准确的姿态和几何形状,并生成时间一致的新视角视频。

unsetunset结论unsetunset

Mesh4D是一种用于从单目视频重建 4D 网格的前馈方法。该方法基于一个在大型静态物体数据集 colGT Ours 上预训练的潜在 3D 重建模型,并在此基础上添加了一个新的 VAE,用于将物体形变编码到一个紧凑的潜在空间中;一种利用骨骼信息监督该 VAE 的方法;以及一个基于这些组件构建的新型扩散模型。借助这些组件,Mesh4D 能够预测物体的完整 3D 形状及其形变,并跟踪整个视频序列中的顶点。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

Claude Skills

小型RAG的简易替代方案,轻松管理业务知识。以咖啡店为例,将产品、教程等资料存入Skill文档,AI自动检索并生成解答,无需向量数据库与复杂维护。技能可按业务模块或客户拆分,灵活高效。 昨天又从搜集到了 100 多个的 skills, 其中有一个非常惊艳我的用法。 他被埋没在...