如您有工作需要分享,欢迎联系:aigc_to_future
作者:Yanbo Ding等
解读:AI生成未来
论文链接:https://arxiv.org/pdf/2505.10238
代码链接:https://github.com/DINGYANB/MTVCrafter
亮点直击
MTVCrafter,首个直接建模原始4D动作(而非2D渲染姿态图像)用于开放世界人像动画生成的流程,实现了复杂三维世界中的动画生成。 4DMoT,一种新颖的 4D 动作tokenizer,能够将原始人体动作数据编码为紧凑而富有表现力4D 动作token,相较于 2D 图像表示提供了更稳健的时空引导。 设计了MV-DiT,一种具备运动感知能力的视频 DiT 模型,配备了独特的 4D 动作注意力机制和 4D 位置编码,从而实现了由 4D 动作 token 有效引导的动画生成。 MTVCrafter 在 TikTok 基准上实现了SOTA性能,在 FID-VID 指标上超越第二名达65% 。
总结速览
解决的问题
现有人像动画方法的局限性:当前方法主要依赖于二维渲染的姿态图像进行动作引导,这种方式存在两个主要问题:
泛化能力差:二维图像难以适应多样化角色和开放世界场景。 三维信息缺失:忽略了真实动作中的三维结构,限制了动画的真实感与表现力。
提出的方案
MTVCrafter 框架:首个直接建模原始三维动作序列(即 4D 动作)的通用人像动画生成框架,能够在复杂的三维世界中生成高质量动画。 核心思想:不再使用 2D 姿态图像作为中间表示,而是引入更加紧凑且表达力强的 4D 动作 token,从而提供更稳健的时空提示。
应用的技术
4DMoT(4D Motion Tokenizer):
将三维动作序列量化为 4D 动作 token。 提供更强的时空引导信息,避免像素级对齐问题,实现更灵活的控制。 MV-DiT(Motion-aware Video DiT):
基于 DiT 架构的视频生成模型。 引入 4D 动作注意力机制 和 4D 位置编码,有效融合动作 token,用于指导视频生成。
达到的效果
生成质量领先:在 TikTok基准测试集上,MTVCrafter 在 FID-VID 指标上达到 6.98,**超越第二名 65%**,实现当前SOTA性能。 强泛化能力: 支持 单人/多人、全身/半身角色。 适用于多种风格和复杂场景,能够处理未见过的动作和角色。 推动领域发展:首次实现基于原始 4D 动作的人像视频生成,为姿态引导视频生成开辟了新方向。
方法
隐空间扩散模型(Latent Diffusion Models) 隐空间扩散模型(LDMs)通过变分自编码器(VAE)的编码器 将数据编码到一个低维隐空间中,即 。扩散过程在此隐空间中进行,以降低计算负担。前向过程添加噪声,其形式为:
其中 ,, 是预定义的时间步噪声调度序列。神经网络 被训练来预测添加的噪声,通过最小化均方误差损失实现:
其中 是可选的条件输入,例如由 T5或 CLIP编码的文本或图像嵌入。在推理阶段,去噪从隐空间中的高斯噪声开始,最终结果通过 VAE 解码器 解码,即 。
扩散 Transformer(Diffusion Transformer) 扩散Transformer(DiT)作为一种主流方法,将基于 Transformer 的主干网络集成到扩散过程中。通过使用 Patchify和旋转位置编码(RoPE),去噪网络 能够有效处理具有不同空间和时间维度的输入,从而提升可扩展性与适应性。在实践中,RoPE 通过在复数空间中的旋转来编码相对位置信息。
其中, 是输入的查询或键向量, 是位置索引, 是特征维度索引。 是频率,即 , 是注意力层的维度。
概述 介绍了用于 4D 动作分词的 4DMoT。所得到的 4D 动作 token 相较于 2D 渲染的姿态图像展现出更强的时空提示能力。然后介绍MV-DiT,它在强大的 DiT 架构中利用 4D 动作 token 作为视觉上下文。该模型具有独特的 4D 动作注意力机制,结合 4D 位置编码和具备运动感知能力的无分类器引导(CFG),能够实现由紧凑而富有表现力的 4D 动作 token 引导的开放世界动画生成。
4D 动作分词器
为了利用丰富的 4D 引导信息驱动人像图像动画,本文从驱动视频中提取 SMPL序列作为条件输入。尽管已有工作 [6, 8, 18] 也使用了 SMPL,但它们通常将 3D 网格简单渲染为 2D 图像作为条件,这种方式在开放世界动画中常常导致运动表示不足,如下图 2 所示。相比之下,本文直接将原始 SMPL 序列分词为 4D 动作 token。首先,构建 SMPL 动作-视频序列的训练数据集。然后,设计了一个 4D 动作 VQVAE(见图 3)来学习无噪声的动作表示。
动作-视频数据集准备 舞蹈是数字人生成中的一个代表性任务。然而,现有的开源数据集,如 TikTok和 Fashion ,在动作多样性和视觉质量方面都存在限制,这限制了它们在训练高保真生成模型中的效果。为此,整理了一个包含 30,000 个片段的高质量舞蹈视频数据集。这些视频片段来自公开数据集、网络爬取资源以及 AI 生成内容,涵盖了多样的人体形象和场景。随后本文对其进行筛选,以确保时间一致性、高动作质量和视觉质量。对于得到的视频,使用 NLF-Pose来估计 SMPL 参数 ,其中 是视频帧数, 是关节旋转, 是形状参数。估计得到的 SMPL 参数随后通过正向运动学计算三维关节位置 ,并使用数据集的统计均值和标准差对 进行 Z-标准化处理:
其中, 表示 SMPL 的运动链函数, 是预训练的关节回归器。三维关节位置 作为后续 4DMoT 的输入,相较于传统的网格渲染提供了更强的时空信息。最终的数据集包含 5K 对 SMPL 动作-视频对,每对平均 600 帧,涵盖多样的动作、角色和场景。
4DMoT 的模型架构 由于 VQVAE 架构被广泛应用于下游任务中的离散分词[24, 79, 80],采用并构建了其结构。如下图 3 所示,4DMoT 包含一个用于动作序列重建的编码器-解码器结构,以及一个轻量级的量化器用于学习离散的动作 token。编码器-解码器在 4D 动作中保持时空一致性,而量化器则使得学习紧凑而富有表现力的 4D 动作表示成为可能。
具体来说,给定一个原始动作序列 ,其中包含 帧和 个关节,编码器首先通过一系列在时间轴()和空间轴()上使用 2D 卷积的残差块,以及带有平均池化层的下采样块,将其映射到一个连续的隐空间中。这产生了隐空间表示 ,其中 表示 token 维度。
接下来,向量量化器通过在可学习的码本 中进行最近邻查找来实现离散化,其中 表示码本大小。所得到的动作 token 在统一空间中展现出紧凑而富有表现力的 4D 信息,作为后续 MV-DiT 的输入条件。
按照已有工作 [23, 25, 81],码本通过指数移动平均(EMA)和码本重置技术进行优化,以保持码本使用的多样性。最后,解码器结构与编码器类似,但包含上采样模块,从量化后的代码 重建动作序列 。为了增强长距离依赖,本文还引入了膨胀卷积和滑动窗口策略进行时间建模。
完整的训练目标 结合了重建损失和承诺损失,以确保准确的重建和有效的码本利用,其定义如下:
其中, 表示停止梯度操作, 是控制承诺损失权重的超参数, 和 分别是量化前后的隐空间表示。
四维动作视频扩散 Transformer
在获得 4D 动作 token 后,目标是有效地利用它们进行人物图像动画生成。本节将介绍如何将 4D 动作 token 作为条件集成到视频 DiT 模型中。设计包含四个关键组件:参考图像保留、4D 位置编码、4D 动作注意力以及具备运动感知的无分类器引导。
参考图像保留 在人物图像动画中,保持视觉和时间一致性仍然是一项关键挑战。与之前的方法 [2, 6, 7, 15, 19] 不同,这些方法使用与去噪模型结构相同的参考网络来单独学习参考图像,本文的 MV-DiT 采用了一种简单而有效的重复-拼接策略。
具体来说,给定噪声视频隐空间表示 ,以及从冻结共享的 VAE 编码器中获得的参考图像隐空间表示 ,本文按如下公式计算复合视觉隐空间表示:
这些拼接后的隐空间表示随后被划分为小块并投影,以匹配注意力 token 的维度。得益于 DiT 中的 3D 全自注意力机制,模型在生成过程中可以直接与参考图像特征进行交互,从而无需额外的参考网络即可高效地保留身份信息。
4D 位置编码 为了增强 4D 动作 token 的时空信息,引入了简洁的 4D RoPE,它结合了 1D 时间和 3D 空间的 RoPE。与标准的3D表达形式[30, 33]不同,4D RoPE 能够捕捉到更优的4D动作位置信息:
其中,每个 实现了 1D 旋转位置嵌入,并在其他维度上进行重复。3D 坐标 来源于本文精心整理的 5K SMPL 动作视频数据集中的关节点位置全局统计,提供了统一且关键的人体形状位置信息。同时,1D RoPE 使用帧索引作为位置,提供时间线索。每个 RoPE 占据总注意力头维度的四分之一。
4D 动作注意力 为了有效地利用动作 token 作为视觉 token 的上下文,本文设计了 4D 动作注意力(见下图 4),其中视觉 token 为查询,4D 动作 token 为键和值。
注意力机制的公式如下:
其中, 是可学习的投影矩阵, 分别是视觉 token 和动作 token 的 3D 和 4D RoPE。RoPE 的公式遵循公式 1。4D 动作注意力的输出通过残差连接与标准的 3D 全自注意力结合,实现了运动感知调制的同时保持时空一致性。
运动感知的无分类引导(Classifier-free Guidance) 为了进一步提升生成质量和泛化能力,本文引入了运动感知的无分类引导(CFG)。传统的 CFG 通常用于文本/图像条件,具有明确定义的无条件输入 (例如,空文本或零图像),遵循公式:。其中, 表示去噪网络, 是时间步 的噪声潜变量, 是控制条件强度的 CFG 比例系数。当 时,生成完全无条件;当 时,完全依赖于条件 。由于动作 token 缺乏自然的无条件形式,本文使用可学习的无条件动作 token ,其特征维度与 匹配。在训练过程中, 以预定义概率 被随机替换为 (即仅在使用时更新 )。这使得条件生成和无条件生成能够联合学习,从而增强模型的鲁棒性和可控性。
4 实验
数据集与指标 遵循先前的工作 [2, 21, 62],使用 TikTok 数据集中的序列 335 到 340 进行测试。评估基于六个指标:图像级指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)、感知图像补丁相似性(LPIPS)、Fréchet Inception 距离(FID);视频级指标包括视频级 FID(FID-VID)和 Fréchet 视频距离(FVD)。
实现细节 对于 4DMoT,使用大小为 8,192、维度为 3072 的码本。量化采用指数移动平均(EMA)更新策略,衰减常数为 。为保持代码本利用率,每 20 步周期性重置未使用的代码。滑动窗口大小设为 8。整个 VQVAE 模型从头开始训练,使用 AdamW 优化器,,,权重衰减为 ,每个 GPU 的 batch size 为 32。公式 3 中的承诺损失比例设为 0.25。训练 200K 次迭代,学习率为 ,随后再训练 100K 次迭代,学习率降低为 。
对于 MV-DiT,采用基于 DiT 的 CogVideoX-5B-T2V 作为基础模型。在训练过程中,动作条件的丢弃概率 设为 0.25,输入视频片段被裁剪为连续的 49 帧。除了 3D VAE 和 4D 动作分词器外,所有模块均可训练,总可训练参数约为 70 亿。本文使用 AdamW 优化器进行优化,,,权重衰减为 ,每个 GPU 的 batch size 为 4。模型训练 20K 次迭代(约 8 天 H100 GPU 时间),学习率为 。在推理阶段,动作条件的 CFG 比例设为 3.0,以平衡条件保真度与生成质量。所有实验均在 8 张 NVIDIA H100 GPU 上进行。
SOTA 对比
本文进行了与现有方法的定性和定量对比。定性对比如上图 1 和下图 5 所示,MTVCrafter 在姿态准确性和身份一致性方面展现了最佳的动画表现。此外,MTVCrafter 具有强大的泛化能力,能够处理单人或多人、全身或半身的外观,以及多样的风格、动作和场景。更重要的是,即使目标姿态与参考图像不对齐(例如下图 5 中的牛仔),MTVCrafter 依然表现出稳健性,说明其能够有效地将动作从驱动视频中解耦。这一问题无法通过 Champ [18] 或 UniAnimate [63] 等简单尝试将姿态重定向以匹配参考图像比例的方法从根本上解决。
在定量对比中,如下表 1 所示,MTVCrafter 在 TikTok 数据集上在所有指标上均取得了最优性能,尤其是在 FID 和 FID-VID 上表现突出。这突显了直接建模动作序列而非渲染姿态图像的优势。对于 SSIM 和 PSNR,各方法结果相近,差异不大,因为这些是面向图像超分辨等任务的低级指标。
消融实验
为了验证本文关键设计的有效性,本文对 4D 动作分词器(MT)、4D 动作注意力(MA)和 CFG 进行了消融实验。如下表 2 所示,本文通过修改或移除特定组件来评估不同变体,并测量它们在 TikTok 数据集上的影响。
动作分词器(MT) 研究了移除向量量化器的影响。没有量化时,VQVAE 退化为一个标准的自动编码器,直接处理连续且不一致的动作特征,导致性能下降(例如,上表 2 中 FID-VID 从 上升到 )。这证实了使用离散且统一的动作 token 对于稳定动作学习至关重要。此外,量化还有助于提升开放世界动画的泛化能力。
动作注意力(MA) 探索了多种位置编码(PE)设计用于动作注意力模块:
动态 PE 使用第一帧的关节点坐标计算 RoPE,但由于不稳定性和训练困难表现较差; 可学习 PE 难以收敛,未能提供可靠的位置提示; 一维时间 RoPE 仅在时间轴上应用 RoPE; 三维空间 RoPE 仅在空间轴上应用 RoPE。这两种方式都未能建模完整的 4D 依赖关系,导致如身份漂移或抖动等视觉伪影; 无 PE 完全移除位置编码,整体表现最差(FVD: 对比 ,SSIM: 对比 ),突出显示了显式位置信息的重要性。
为了更好地说明效果,在下图 6 中提供了可视化消融。图中生动展示了分词器和 4D RoPE 的有效性,带来了更好的动作质量和角色保真度。
运动感知的无分类引导(CFG) 下图 7 展示了运动感知 CFG 比例 的定性和定量评估。在 TikTok 基准上,CFG 比例为 时表现最佳,尤其是在 FVD 指标上。对于 FID-VID 指标,该比例的影响较小。在右侧的可视化对比中,增加 CFG 比例增强了姿态对齐,但也引入了更多伪影,并可能降低视频质量。
结论
MTVCrafter,一个新颖的框架,直接对原始动作序列进行 token 化,而不是依赖于二维渲染的姿态图像进行人物视频生成。通过在 DiT 中集成 4D 动作 VQVAE 和动作注意力,MTVCrafter 有效地保持了时空一致性和身份保真度,同时实现了角色与动作的解耦。实验显示其在多样角色与动作上的 SOTA 表现和强泛化能力,为该领域设立了新的范式。
参考文献
[1] MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animatio
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论