2025年5月25日星期日

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Yanbo Ding等

解读:AI生成未来

图片论文链接:https://arxiv.org/pdf/2505.10238 
代码链接:https://github.com/DINGYANB/MTVCrafter

图片
图片
图片
图片
图片
图片
图片
图片
图片
图片

亮点直击

  • MTVCrafter,首个直接建模原始4D动作(而非2D渲染姿态图像)用于开放世界人像动画生成的流程,实现了复杂三维世界中的动画生成。
  • 4DMoT,一种新颖的 4D 动作tokenizer,能够将原始人体动作数据编码为紧凑而富有表现力4D 动作token,相较于 2D 图像表示提供了更稳健的时空引导。
  • 设计了MV-DiT,一种具备运动感知能力的视频 DiT 模型,配备了独特的 4D 动作注意力机制和 4D 位置编码,从而实现了由 4D 动作 token 有效引导的动画生成。
  • MTVCrafter 在 TikTok 基准上实现了SOTA性能,在 FID-VID 指标上超越第二名达65% 。
图1,MTVCrafter 还具有良好的泛化能力,能够适应未见过的动作和角色,包括单人或多人、全身或半身角色,覆盖多种风格和场景。
图1,MTVCrafter 还具有良好的泛化能力,能够适应未见过的动作和角色,包括单人或多人、全身或半身角色,覆盖多种风格和场景。

总结速览

解决的问题

现有人像动画方法的局限性:当前方法主要依赖于二维渲染的姿态图像进行动作引导,这种方式存在两个主要问题:

  • 泛化能力差:二维图像难以适应多样化角色和开放世界场景。
  • 三维信息缺失:忽略了真实动作中的三维结构,限制了动画的真实感与表现力。

提出的方案

  • MTVCrafter 框架:首个直接建模原始三维动作序列(即 4D 动作)的通用人像动画生成框架,能够在复杂的三维世界中生成高质量动画。
  • 核心思想:不再使用 2D 姿态图像作为中间表示,而是引入更加紧凑且表达力强的 4D 动作 token,从而提供更稳健的时空提示。

应用的技术

  • 4DMoT(4D Motion Tokenizer)

    • 将三维动作序列量化为 4D 动作 token。
    • 提供更强的时空引导信息,避免像素级对齐问题,实现更灵活的控制。
  • MV-DiT(Motion-aware Video DiT)

    • 基于 DiT 架构的视频生成模型。
    • 引入 4D 动作注意力机制 和 4D 位置编码,有效融合动作 token,用于指导视频生成。

达到的效果

  • 生成质量领先:在 TikTok基准测试集上,MTVCrafter 在 FID-VID 指标上达到 6.98,**超越第二名 65%**,实现当前SOTA性能。
  • 强泛化能力
    • 支持 单人/多人全身/半身角色。
    • 适用于多种风格和复杂场景,能够处理未见过的动作和角色。
  • 推动领域发展:首次实现基于原始 4D 动作的人像视频生成,为姿态引导视频生成开辟了新方向。

方法

隐空间扩散模型(Latent Diffusion Models)  隐空间扩散模型(LDMs)通过变分自编码器(VAE)的编码器  将数据编码到一个低维隐空间中,即 。扩散过程在此隐空间中进行,以降低计算负担。前向过程添加噪声,其形式为:

其中  是预定义的时间步噪声调度序列。神经网络  被训练来预测添加的噪声,通过最小化均方误差损失实现:

其中  是可选的条件输入,例如由 T5或 CLIP编码的文本或图像嵌入。在推理阶段,去噪从隐空间中的高斯噪声开始,最终结果通过 VAE 解码器  解码,即 

扩散 Transformer(Diffusion Transformer)  扩散Transformer(DiT)作为一种主流方法,将基于 Transformer 的主干网络集成到扩散过程中。通过使用 Patchify和旋转位置编码(RoPE),去噪网络  能够有效处理具有不同空间和时间维度的输入,从而提升可扩展性与适应性。在实践中,RoPE 通过在复数空间中的旋转来编码相对位置信息。图片

其中, 是输入的查询或键向量, 是位置索引, 是特征维度索引。 是频率,即  是注意力层的维度。

概述  介绍了用于 4D 动作分词的 4DMoT。所得到的 4D 动作 token 相较于 2D 渲染的姿态图像展现出更强的时空提示能力。然后介绍MV-DiT,它在强大的 DiT 架构中利用 4D 动作 token 作为视觉上下文。该模型具有独特的 4D 动作注意力机制,结合 4D 位置编码和具备运动感知能力的无分类器引导(CFG),能够实现由紧凑而富有表现力的 4D 动作 token 引导的开放世界动画生成。

4D 动作分词器

为了利用丰富的 4D 引导信息驱动人像图像动画,本文从驱动视频中提取 SMPL序列作为条件输入。尽管已有工作 [6, 8, 18] 也使用了 SMPL,但它们通常将 3D 网格简单渲染为 2D 图像作为条件,这种方式在开放世界动画中常常导致运动表示不足,如下图 2 所示。相比之下,本文直接将原始 SMPL 序列分词为 4D 动作 token。首先,构建 SMPL 动作-视频序列的训练数据集。然后,设计了一个 4D 动作 VQVAE(见图 3)来学习无噪声的动作表示。

图片

动作-视频数据集准备  舞蹈是数字人生成中的一个代表性任务。然而,现有的开源数据集,如 TikTok和 Fashion ,在动作多样性和视觉质量方面都存在限制,这限制了它们在训练高保真生成模型中的效果。为此,整理了一个包含 30,000 个片段的高质量舞蹈视频数据集。这些视频片段来自公开数据集、网络爬取资源以及 AI 生成内容,涵盖了多样的人体形象和场景。随后本文对其进行筛选,以确保时间一致性、高动作质量和视觉质量。对于得到的视频,使用 NLF-Pose来估计 SMPL 参数 ,其中  是视频帧数, 是关节旋转, 是形状参数。估计得到的 SMPL 参数随后通过正向运动学计算三维关节位置 ,并使用数据集的统计均值和标准差对  进行 Z-标准化处理:

图片

其中, 表示 SMPL 的运动链函数, 是预训练的关节回归器。三维关节位置  作为后续 4DMoT 的输入,相较于传统的网格渲染提供了更强的时空信息。最终的数据集包含 5K 对 SMPL 动作-视频对,每对平均 600 帧,涵盖多样的动作、角色和场景。

4DMoT 的模型架构  由于 VQVAE 架构被广泛应用于下游任务中的离散分词[24, 79, 80],采用并构建了其结构。如下图 3 所示,4DMoT 包含一个用于动作序列重建的编码器-解码器结构,以及一个轻量级的量化器用于学习离散的动作 token。编码器-解码器在 4D 动作中保持时空一致性,而量化器则使得学习紧凑而富有表现力的 4D 动作表示成为可能。

图片

具体来说,给定一个原始动作序列 ,其中包含  帧和  个关节,编码器首先通过一系列在时间轴()和空间轴()上使用 2D 卷积的残差块,以及带有平均池化层的下采样块,将其映射到一个连续的隐空间中。这产生了隐空间表示 ,其中  表示 token 维度。

接下来,向量量化器通过在可学习的码本  中进行最近邻查找来实现离散化,其中  表示码本大小。所得到的动作 token 在统一空间中展现出紧凑而富有表现力的 4D 信息,作为后续 MV-DiT 的输入条件。

按照已有工作 [23, 25, 81],码本通过指数移动平均(EMA)和码本重置技术进行优化,以保持码本使用的多样性。最后,解码器结构与编码器类似,但包含上采样模块,从量化后的代码  重建动作序列 。为了增强长距离依赖,本文还引入了膨胀卷积和滑动窗口策略进行时间建模。

完整的训练目标  结合了重建损失和承诺损失,以确保准确的重建和有效的码本利用,其定义如下:

图片

其中, 表示停止梯度操作, 是控制承诺损失权重的超参数, 和  分别是量化前后的隐空间表示。

四维动作视频扩散 Transformer

在获得 4D 动作 token 后,目标是有效地利用它们进行人物图像动画生成。本节将介绍如何将 4D 动作 token 作为条件集成到视频 DiT 模型中。设计包含四个关键组件:参考图像保留、4D 位置编码、4D 动作注意力以及具备运动感知的无分类器引导。

参考图像保留  在人物图像动画中,保持视觉和时间一致性仍然是一项关键挑战。与之前的方法 [2, 6, 7, 15, 19] 不同,这些方法使用与去噪模型结构相同的参考网络来单独学习参考图像,本文的 MV-DiT 采用了一种简单而有效的重复-拼接策略。

具体来说,给定噪声视频隐空间表示 ,以及从冻结共享的 VAE 编码器中获得的参考图像隐空间表示 ,本文按如下公式计算复合视觉隐空间表示:

图片

这些拼接后的隐空间表示随后被划分为小块并投影,以匹配注意力 token 的维度。得益于 DiT 中的 3D 全自注意力机制,模型在生成过程中可以直接与参考图像特征进行交互,从而无需额外的参考网络即可高效地保留身份信息。

4D 位置编码  为了增强 4D 动作 token 的时空信息,引入了简洁的 4D RoPE,它结合了 1D 时间和 3D 空间的 RoPE。与标准的3D表达形式[30, 33]不同,4D RoPE 能够捕捉到更优的4D动作位置信息:

图片

其中,每个  实现了 1D 旋转位置嵌入,并在其他维度上进行重复。3D 坐标  来源于本文精心整理的 5K SMPL 动作视频数据集中的关节点位置全局统计,提供了统一且关键的人体形状位置信息。同时,1D RoPE 使用帧索引作为位置,提供时间线索。每个 RoPE 占据总注意力头维度的四分之一。

4D 动作注意力  为了有效地利用动作 token  作为视觉 token  的上下文,本文设计了 4D 动作注意力(见下图 4),其中视觉 token 为查询,4D 动作 token 为键和值。

图片

注意力机制的公式如下:

图片

其中, 是可学习的投影矩阵, 分别是视觉 token  和动作 token  的 3D 和 4D RoPE。RoPE 的公式遵循公式 1。4D 动作注意力的输出通过残差连接与标准的 3D 全自注意力结合,实现了运动感知调制的同时保持时空一致性。

运动感知的无分类引导(Classifier-free Guidance)  为了进一步提升生成质量和泛化能力,本文引入了运动感知的无分类引导(CFG)。传统的 CFG 通常用于文本/图像条件,具有明确定义的无条件输入 (例如,空文本或零图像),遵循公式:。其中, 表示去噪网络, 是时间步  的噪声潜变量, 是控制条件强度的 CFG 比例系数。当  时,生成完全无条件;当  时,完全依赖于条件 。由于动作 token 缺乏自然的无条件形式,本文使用可学习的无条件动作 token ,其特征维度与  匹配。在训练过程中, 以预定义概率  被随机替换为 (即仅在使用时更新 )。这使得条件生成和无条件生成能够联合学习,从而增强模型的鲁棒性和可控性。

4 实验

数据集与指标  遵循先前的工作 [2, 21, 62],使用 TikTok 数据集中的序列 335 到 340 进行测试。评估基于六个指标:图像级指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)、感知图像补丁相似性(LPIPS)、Fréchet Inception 距离(FID);视频级指标包括视频级 FID(FID-VID)和 Fréchet 视频距离(FVD)。

实现细节  对于 4DMoT,使用大小为 8,192、维度为 3072 的码本。量化采用指数移动平均(EMA)更新策略,衰减常数为 。为保持代码本利用率,每 20 步周期性重置未使用的代码。滑动窗口大小设为 8。整个 VQVAE 模型从头开始训练,使用 AdamW 优化器,,权重衰减为 ,每个 GPU 的 batch size 为 32。公式 3 中的承诺损失比例设为 0.25。训练 200K 次迭代,学习率为 ,随后再训练 100K 次迭代,学习率降低为 

对于 MV-DiT,采用基于 DiT 的 CogVideoX-5B-T2V 作为基础模型。在训练过程中,动作条件的丢弃概率  设为 0.25,输入视频片段被裁剪为连续的 49 帧。除了 3D VAE 和 4D 动作分词器外,所有模块均可训练,总可训练参数约为 70 亿。本文使用 AdamW 优化器进行优化,,权重衰减为 ,每个 GPU 的 batch size 为 4。模型训练 20K 次迭代(约 8 天 H100 GPU 时间),学习率为 。在推理阶段,动作条件的 CFG 比例设为 3.0,以平衡条件保真度与生成质量。所有实验均在 8 张 NVIDIA H100 GPU 上进行。

SOTA 对比

本文进行了与现有方法的定性和定量对比。定性对比如上图 1 和下图 5 所示,MTVCrafter 在姿态准确性和身份一致性方面展现了最佳的动画表现。此外,MTVCrafter 具有强大的泛化能力,能够处理单人或多人、全身或半身的外观,以及多样的风格、动作和场景。更重要的是,即使目标姿态与参考图像不对齐(例如下图 5 中的牛仔),MTVCrafter 依然表现出稳健性,说明其能够有效地将动作从驱动视频中解耦。这一问题无法通过 Champ [18] 或 UniAnimate [63] 等简单尝试将姿态重定向以匹配参考图像比例的方法从根本上解决。

图片

在定量对比中,如下表 1 所示,MTVCrafter 在 TikTok 数据集上在所有指标上均取得了最优性能,尤其是在 FID 和 FID-VID 上表现突出。这突显了直接建模动作序列而非渲染姿态图像的优势。对于 SSIM 和 PSNR,各方法结果相近,差异不大,因为这些是面向图像超分辨等任务的低级指标。

图片

消融实验

为了验证本文关键设计的有效性,本文对 4D 动作分词器(MT)、4D 动作注意力(MA)和 CFG 进行了消融实验。如下表 2 所示,本文通过修改或移除特定组件来评估不同变体,并测量它们在 TikTok 数据集上的影响。

图片

动作分词器(MT)  研究了移除向量量化器的影响。没有量化时,VQVAE 退化为一个标准的自动编码器,直接处理连续且不一致的动作特征,导致性能下降(例如,上表 2 中 FID-VID 从  上升到 )。这证实了使用离散且统一的动作 token 对于稳定动作学习至关重要。此外,量化还有助于提升开放世界动画的泛化能力。

动作注意力(MA)  探索了多种位置编码(PE)设计用于动作注意力模块:

  • 动态 PE 使用第一帧的关节点坐标计算 RoPE,但由于不稳定性和训练困难表现较差;
  • 可学习 PE 难以收敛,未能提供可靠的位置提示;
  • 一维时间 RoPE 仅在时间轴上应用 RoPE;
  • 三维空间 RoPE 仅在空间轴上应用 RoPE。这两种方式都未能建模完整的 4D 依赖关系,导致如身份漂移或抖动等视觉伪影;
  • 无 PE 完全移除位置编码,整体表现最差(FVD: 对比 ,SSIM: 对比 ),突出显示了显式位置信息的重要性。

为了更好地说明效果,在下图 6 中提供了可视化消融。图中生动展示了分词器和 4D RoPE 的有效性,带来了更好的动作质量和角色保真度。

图片

运动感知的无分类引导(CFG)  下图 7 展示了运动感知 CFG 比例  的定性和定量评估。在 TikTok 基准上,CFG 比例为  时表现最佳,尤其是在 FVD 指标上。对于 FID-VID 指标,该比例的影响较小。在右侧的可视化对比中,增加 CFG 比例增强了姿态对齐,但也引入了更多伪影,并可能降低视频质量。

图片

结论

MTVCrafter,一个新颖的框架,直接对原始动作序列进行 token 化,而不是依赖于二维渲染的姿态图像进行人物视频生成。通过在 DiT 中集成 4D 动作 VQVAE 和动作注意力,MTVCrafter 有效地保持了时空一致性和身份保真度,同时实现了角色与动作的解耦。实验显示其在多样角色与动作上的 SOTA 表现和强泛化能力,为该领域设立了新的范式。

参考文献

[1] MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animatio

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

炸裂!Meta、xAI、OpenAI齐放大招,这一周科技圈太疯了

如果说去年是"模型年",今年则是"融合年":AI和机器人、硬件、软件、平台生态、交互方式正在全面整合进人类社会。 点击蓝字关注我吧! 作为一个每天蹲点刷外网、守着AI和机器人消息入眠的科技狂热爱好者,我可以负责任地说: 这一周,AI和机...