2025年4月1日星期二

3D虚拟人ExAvatar:由简短视频建模转化为3D数字形象。


ExAvatar是由DGIST和Meta公司的Codec Avatars Lab联合研发的一项技术,能够通过捕捉视频中的动作和表情,转化为栩栩如生的3D数字形象。这项技术解决了以往技术中的难题,提高了动画的自然度和渲染效果。

什么是 ExAvatar?

  • ExAvatar 是全新富有表现力的全身 3D 高斯化身。
  • 结合了SMPL-X的全身(身体、手和脸)驾驶能力和3DGS的强大外观建模能力。
  • 通过随意拍摄的短手机扫描中性姿势约10秒制作而成。
  • 支持具有新颖的身体姿势、手势和面部表情的动画以及从任何视点的渲染。

相关链接

项目地址:mks0601.github.io/ExAvatar/

论文地址:arxiv.org/abs/2407.21686

论文阅读

ExAvatar:富有表现力的全身 3D 高斯虚拟人

摘要

面部表情和手势对于表达我们的情感和与世界互动是必不可少的。尽管如此,从随意拍摄的视频中建模的大多数 3D 虚拟人仅支持没有面部表情的身体动作。因此,为了实现这一目标,我们提出了 ExAvatar,这是一个从短单目视频中学习到的富有表现力的全身 3D 虚拟人。我们将 ExAvatar 设计为全身参数网格模型 (SMPL-X) 和 3D 高斯溅射 (3DGS) 的组合。

主要面临的挑战:

  1. 视频中面部表情和姿势的多样性有限;
  2. 缺乏 3D 观察,例如 3D 扫描和 RGBD 图像。

视频中有限的多样性使得具有新颖面部表情和姿势的动画变得并非易事。此外,缺乏 3D 观察可能会导致视频中未观察到的人体部位出现严重模糊性,从而导致在新颖运动下出现明显的伪影。

为了解决这些问题,我们引入了网格和 3D 高斯的混合表示。我们的混合表示将每个 3D 高斯视为表面上的顶点,它们之间具有预定义的连接信息(即三角形面),遵循 SMPL-X 的网格拓扑。它使我们的 ExAvatar 能够在 SMPL-X 的面部表情空间驱动下呈现新颖的面部表情。此外,通过使用基于连接的正则化器,我们显著减少了新颖面部表情和姿势中的伪影。

方法

三维高斯和表面网格的混合表示

我们提出了 3D 高斯和表面网格的混合表示。我们的混合表示将每个 3D 高斯视为表面上的顶点,其中顶点之间具有预定义的连接(即三角形面),遵循 SMPL-X 的网格拓扑。

好处 1: 我们的 ExAvatar 与 SMPL-X 的面部表情空间完全兼容。因此,即使是没有多种面部表情的短单目视频,它也可以用 SMPL-X 的任何面部表情代码驱动。

好处 2: 我们可以使用基于连通性的正则化器(例如拉普拉斯正则化器和我们新的面部损失)显著减少新面部表情和姿势中的伪影。

身体、手部和面部的联合注册

  • 在训练我们的 ExAvatar 之前,我们将身体、手和脸与 SMPL-X 模型联合注册。
  • 为了弥补 SMPL-X 中手部和面部表现力的有限性,我们引入了两个额外的偏移(即关节偏移和面部偏移)。
  • 关节偏移是控制关节在模板空间中的位置,对于进一步调整手部骨骼长度特别有效。
  • 面偏移是面区域的每个顶点偏移,针对仅适合面且适合FLAME模型进行了优化。

模型结构

  • 我们从三平面中提取每个高斯特征并用 MLP 对其进行处理。
  • 回归的特征与规范网格相结合,成为规范空间中的 3D 动画化身。
  • 我们使用LBS算法进行动画制作,并使用3DGS将角色渲染到屏幕空间。

效果

野外视频中的运动传输

  • 先用Hand4Whole获得全身3D姿势和面部表情,然后进行进一步的优化。
  • 然后利用获得的 3D 姿势和面部表情来驱动我们的 ExAvatar。
  • 所有头像都是通过随意拍摄的单眼视频创建的。

具有新颖面部表情的动画

我们展示具有新颖面部表情的动画。请注意,在训练帧中,主体主要只有有限的中性面部表情。

与之前最先进的虚拟化身的比较

ExAvatar 比以前的化身实现了更加自然的动作和外观。所有头像都是通过随意拍摄的单眼视频创建的。

与生成式人工智能的比较

ExAvatar 表现优于AnimateAnyone。

结论

总结。 我们介绍了 ExAvatar,这是一种富有表现力的全身 3D 虚拟形象,可以通过短单目视频制作而成。我们提出了表面网格和 3D 高斯的混合表示,以解决 1) 视频中面部表情和姿势的多样性有限和 2) 缺乏 3D 观察(例如 3D 扫描和 RGBD 图像)的问题。我们的混合表示使 ExAvatar 与 SMPL-X 的面部表情空间完全兼容,并显著减少了新面部表情和新姿势中的伪影。

局限性。 首先,由于视频中通常无法观察到口腔内部(包括口腔和手掌),因此我们的模型会产生合理的几何形状和纹理。其次,与以前的虚拟形象一样,我们在动态服装建模方面也遇到了困难。应考虑具有运动信息(例如速度和加速度)的服装材料,以正确建模此类动态服装,但这超出了我们的范围。

未来的工作。 为了更好地幻化未观察到的人体部位(例如口腔内部),可以使用分数蒸馏采样来生成图像并将其用于监督。此外,为我们的 ExAvatar 增加可重现性是一个有前途且有趣的未来方向。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

一文看懂!大语言模型与AI智能体的前沿进展

点击下方卡片,关注"AI生成未来"如您有工作需要分享,欢迎联系:aigc_to_future近年来,大语言   点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 近年来,大语言模型...