Mesh4D模型基于单目RGB视频,能生成完整动画3D网格及其形变。它通过自编码器学习紧凑潜在空间,结合骨骼结构先验,并利用潜在扩散模型一次性预测完整动画。评估显示,该模型在3D形状与形变恢复上优于现有方法。
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
论文提出 Mesh4D 前馈模型用于单目 4D 网格重建。它构建紧凑潜在空间,由自编码器以骨骼结构为指导学习,推理无需骨骼信息,编码器采用时空注意力机制稳定表示形变。基于此,训练潜在扩散模型,以输入视频和首帧重建网格为条件,一次性预测完整动画。经评估,在恢复精确 3D 形状和形变上,Mesh4D 表现优于现有方法。
标题 《Mesh4D:单目 4D 网格重建新突破,性能超越现有方法》 《Mesh4D 模型:无需骨骼信息,高效实现单目 4D 网格重建》 《创新 Mesh4D:解锁单目 4D 网格重建的精准形变预测》
以单目 RGB 视频作为输入,Mesh4D 生成完整的动画 3D 网格及其变形。
相关链接
论文:https://arxiv.org/abs/2601.05251 主页:https://mesh-4d.github.io 代码:https://github.com/jzr99/Mesh4D(已开源)
介绍
论文提出了一种名为 Mesh4D 的前馈模型,用于单目 4D 网格重建。给定一个动态物体的单目视频,模型能够重建物体的完整 3D 形状和运动,并将其表示为形变场。主要贡献在于构建了一个紧凑的潜在空间,该空间能够在一次训练过程中编码整个动画序列。这个潜在空间由一个自编码器学习,该自编码器在训练过程中以训练对象的骨骼结构为指导,从而为可能的形变提供强有力的先验信息。至关重要的是,在推理阶段不需要骨骼信息。该编码器采用了时空注意力机制,从而能够更稳定地表示物体的整体形变。基于此表示,论文训练了一个潜在扩散模型,该模型以输入视频和从第一帧重建的网格为条件,能够一次性预测完整的动画。在重建和新视图合成基准测试中评估了 Mesh4D,结果表明,在恢复精确的 3D 形状和形变方面,Mesh4D 的性能优于现有方法。
方法概述
整体形变 VAE 流程。(左图)给定一系列 3D 网格作为输入,首先对对应点进行均匀采样。然后使用掩码自注意力机制和交叉注意力机制注入骨架信息。接下来,在空间维度上执行最远点采样 (FPS) 以压缩潜在信息,之后是 8 层时空注意力机制。形变场由时空注意力机制层解码,最后是交叉注意力机制,其中规范顶点作为查询点。(右图)每个时空注意力层依次执行时间注意力、全局注意力和空间注意力。对于时间注意力和全局注意力,还在时间维度上应用了一维 RoPE 嵌入。
整体形变扩散模型流程。基于HY3D 2.1形状扩散模型构建该模型,并添加了空间和时间嵌入以及交叉注意力层,以使形变场的生成与规范网格和输入视频相匹配。
实验结果
几何重建的定性结果。图中展示了法线图和误差图(越蓝越好)。HY3D 2.1 由于缺乏时间信息,其姿态和形状估计不够精确。得益于时空注意力机制,论文方法能够根据给定的输入帧重建出姿态精确、形状相似的网格。
关于新视角合成的定性结果。所有最先进的方法都存在姿态估计不准确的问题,要么是由于缺乏时间注意力(HY3D),要么是由于忽略了几何监督的重要性(GVDF,L4GM)。基于 3D-GS 的方法有时会出现重影,因为它们在变形过程中缺乏拓扑约束,而逐帧重建方法会产生不一致的形状和纹理。此外,通过利用大规模重建方法,避免了预测极不准确的规范网格。得益于骨骼信息和时空注意力,Mesh4D 能够重建准确的姿态和几何形状,并生成时间一致的新视角视频。
结论
Mesh4D是一种用于从单目视频重建 4D 网格的前馈方法。该方法基于一个在大型静态物体数据集 colGT Ours 上预训练的潜在 3D 重建模型,并在此基础上添加了一个新的 VAE,用于将物体形变编码到一个紧凑的潜在空间中;一种利用骨骼信息监督该 VAE 的方法;以及一个基于这些组件构建的新型扩散模型。借助这些组件,Mesh4D 能够预测物体的完整 3D 形状及其形变,并跟踪整个视频序列中的顶点。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论