文章链接:https://arxiv.org/abs/2508.11255 项目链接:https://fantasy-amap.github.io/fantasy-talking2/
亮点直击
Talking-Critic ,一个统一的多模态奖励模型,能够准确量化生成肖像动画与多维度人类期望之间的对齐程度。 引入了 Talking-NSQ ,一个包含41万样本的大规模肖像动画偏好数据集,它系统地涵盖了用户在音视频同步、视觉质量和运动自然度方面的偏好。 提出了一种新颖的偏好对齐方法,称为 TLPO ,该方法能够跨时间步和网络层自适应地整合多个偏好目标。大量实验表明,本文的方法在多个指标上显著优于现有基线。 总结速览 解决的问题 多维偏好冲突 : 现有音频驱动肖像动画方法在运动自然度(Motion Naturalness)、唇部同步准确性(Lip-sync Accuracy)和视觉质量(Visual Quality)等多个维度上存在目标冲突,难以同时优化。 数据稀缺 : 缺乏大规模、高质量、带有多维人工偏好标注的数据集,限制了模型泛化到复杂动作、特殊发音等场景的能力。 对齐困难 : 传统的线性加权奖励模型无法有效处理复杂且相互冲突的人类偏好,导致模型难以与用户的细粒度、多维度期望对齐。 提出的方案 Talking-Critic(奖励模型) : 引入一个多模态奖励模型,用于学习人类对齐的奖励函数,以量化生成视频在多个维度上满足人类期望的程度。 Talking-NSQ(数据集) : 利用上述奖励模型,自动化标注并构建了一个大规模多维人类偏好数据集,包含约41万个偏好对,涵盖运动自然度、唇部同步和视觉质量三个关键维度。 TLPO(优化框架) : 提出了 T imestep- L ayer adaptive multi-expert P reference O ptimization(时间步-层自适应多专家偏好优化)框架。该框架首先为每个偏好维度训练独立的轻量级专家模块(LoRA),然后通过一个融合门机制,根据去噪时间步和网络层动态调整各专家模块的权重,实现多目标的精细协同优化。 应用的技术 奖励模型(Reward Model) : 训练一个能够预测多维度人类偏好分数的模型(Talking-Critic),用于自动化数据标注和提供训练信号。 大规模数据集构建 : 利用奖励模型对现有先进模型的输出进行自动评分和比较,构建大规模偏好数据集(Talking-NSQ)。 基于LoRA的多专家训练 : 使用低秩自适应(LoRA)技术为每个偏好维度独立训练轻量级的专用"专家"模块,避免完全微调大模型。 动态融合门机制 : 设计了一种门控机制,根据扩散模型去噪过程的不同 时间步(Timestep) 和不同 网络层(Layer) 的特性,自适应地融合多个专家的输出,解决偏好冲突。 偏好优化(Preference Optimization) : 将来自人类(通过奖励模型代理)的偏好信号融入扩散模型的训练过程中,实现对模型输出的精细对齐。 达到的效果 奖励模型性能提升 : Talking-Critic奖励模型在预测人类偏好评分方面 显著优于(significantly outperforms) 现有方法。 生成质量全面改进 : 与基线模型相比,采用TLPO框架的模型在 唇同步准确性(Lip-sync Accuracy)、运动自然度(Motion Naturalness)和视觉质量(Visual Quality) 等多个维度上都取得了 实质性改进(substantial improvements) 。 综合评估领先 : 在 定性(主观视觉评估)和定量(客观指标)评估 中均展现出 卓越的性能(superior performance) ,生成了更具表现力和人性化的肖像动画。 方法 Talking-Critic 奖励 以往的视频奖励建模方法主要利用视觉-语言模型进行训练。相比之下,本文的音频驱动肖像动画任务需要包含文本、视频和音频模态的多模态输入,这使得传统的视觉-语言模型不足以胜任奖励建模。受益于统一视觉-音频-语言模型(VALMs)的最新进展,多模态理解和对齐方面取得了重大突破。本文采用 Qwen2.5-Omni 作为基础模型,该模型引入了 TMRoPE,这种位置嵌入方法将音频和视频帧组织成按时间顺序交错的结构,实现了卓越的视听对齐。
如下图 2(a) 所示,为了充分利用 Qwen2.5-Omni 的潜力来评估肖像动画,本文通过专门的指令微调将其适配为一个奖励模型。本文构建了一个包含三个关键维度的偏好数据集:MN(运动自然度)、LS(唇部同步)和 VQ(视觉质量)。在构建过程中,本文实施了严格的平衡采样策略,确保每次比较的正负样本数量相等,从而使模型能够无偏差地学习人类偏好。最终得到的微调奖励模型为下游任务(如 DPO)提供了可靠的指导信号。
时间步-层自适应多专家偏好优化 对于多目标偏好优化,现有方法通过各种策略获得每个样本的聚合分数,从而创建反映整体质量的正/负对。这种方法统一处理所有偏好目标。然而,它通常导致某些维度的过度优化,而以其他维度的性能为代价。具体来说,在人体肖像动画中,一个总体排名最好的样本可能表现出较差的唇部同步准确性,而一个总体得分最低的样本可能在这方面表现出色。这种细粒度偏好之间的冲突阻碍了有效、精细的对齐,并限制了模型沿着较不显著维度学习的能力。为了解决这个问题,本文提出了一种两阶段训练策略。如上图 2(c) 所示,第一阶段通过多专家对齐方法学习解耦的偏好。其次,本文引入了一种时间步-层自适应融合机制,以有效整合这些多样化的偏好,实现鲁棒的多目标对齐。
多专家解耦偏好对齐 。为了解决偏好竞争冲突,本文首先通过专门的专家执行独立的偏好对齐,这涉及三个轻量级专家 LoRA 模块。第一个是运动自然度专家 ,旨在确保流畅自然的身体运动。第二个是唇部同步专家 ,致力于优化音频和视觉线索之间的协调。第三个是视觉质量专家 ,旨在提高单帧的保真度。
每个专家模块集成到每个 DiT 块的所有线性层中。由于每个专家专门负责一个主导偏好维度,因此它们实现了高效收敛。
注意到唇部同步 exclusively 关注嘴部区域,为了降低偏好对齐的难度并防止引入无关的外部偏好,本文利用 MediaPipe 在像素空间中提取精确的唇部掩码,然后通过三线性插值将其投影到潜在空间,形成本文专注于唇部的约束掩码 。因此,公式 1 中唇部同步专家的训练损失 被重新加权为:
对于运动自然度专家LoRA和视觉质量LoRA,本文在所有像素域上执行偏好损失 。最终,本文获得了三个专家模块。
时间步-层自适应协同融合(Timestep-Layer Adaptive Collaborative Fusion) 。由于每个专家都通过隔离的数据进行了独立的维度优化,简单地整合它们进行推理可能会导致专家之间的偏好冲突,从而降低整体性能。先前的研究已经确定,生成偏好在去噪时间步之间是不同的,并且DiT层具有不同的功能角色。这些发现促使本文设计了一种时间步-层自适应融合策略,实现多专家模块的协同对齐。
具体来说,本文采用一个时间步-层自适应融合门来动态调整跨DiT层和时间步的LoRA偏好权重。将一个轻量级、参数高效的融合门集成到DiT块的所有线性层中。该门使用当前去噪时间步 来调制每个LoRA模块的影响。如上图2(c)所示,对于第 层,融合门获取时间步嵌入 并将其投影为融合权重。
其中 , 且 。 是专家 LoRA 模块的数量。在本文的实现中, 。 和 都是可学习参数。关键的是,由于 且 (其中 是 LoRA 的秩),与 LoRA 模块本身相比,融合门仅引入可忽略不计的参数。
一旦产生层级别和时间步权重向量 ,它就被广播到 DiT 块 内每个带有 LoRA 适配器的线性子层。此类层的激活融合随后按如下方式执行:
其中 表示冻结 DiT 主干网络中第 层的输出, 表示同层各专家 LoRA 的增量。在融合训练期间,本文利用全维度偏好对,即正样本在所有考虑的维度上都优于其负样本的样本对。在推理过程中,融合门动态调整每层 和每个时间步 的权重 ,从而在整个去噪过程中实现专用 LoRA 的自适应协调。
这种时间步-层动态融合持续重新平衡专家的贡献,解决冲突并防止单一指标主导。通过促进协作而非竞争,它推动模型产生帕累托最优输出。
实验 数据集构建 多维奖励数据收集 。为了训练本文的 Talking-Critic 奖励模型,构建了一个高质量、多维的人类偏好数据集。该数据集包含真实和合成数据,并由专业标注人员提供了跨 MN、LS 和 VQ 维度的二元偏好标注。具体来说,从 OpenHuman-Vid获取了约 4K 个真实世界视频片段。为了最大化样本多样性,还使用四种最先进的(SOTA)音频驱动肖像模型和随机无分类器引导尺度生成了 6K 个合成视频。随后,所有视频都由人类标注者根据特定维度的二元选择问题进行评估。每个样本由三名标注者独立评估。在存在分歧的情况下,会咨询第四位资深标注者进行仲裁并做出最终决定。这一细致的过程产生了一个包含约 10K 样本的多维偏好数据集。此外,按照相同的程序创建了一个包含 1K 样本的验证集。
偏好数据收集 。如上图 2(b) 所示,提出了一个全自动流水线来构建用于多专家偏好训练的大规模多维偏好数据集 Talking-NSQ,最终得到 410K 个带标注的偏好对。具体来说,对于每个输入音频片段和参考图像,使用同一组 SOTA 模型生成候选视频。每个模型为每个输入生成四个视频变体以确保多样性。然后,本文使用预训练的 Talking-Critic 对这些视频在三个不同维度上进行评分,并构建相应的正负对。这种维度解耦允许单个视频贡献给多个偏好集,显著提高了数据利用效率。此过程为运动自然度生成了 180K 对,为唇同步准确性生成了 100K 对,为视觉质量生成了 130K 对。
此外,对于时间步-层自适应融合训练阶段,本文构建了 18K 个全维度偏好对。这是通过对高质量真实视频引入受控退化来实现的。随机选择四种 SOTA 模型基于真实视频合成新视频。然后,将原始高质量真实视频作为正样本与新生成的退化视频作为负样本进行匹配,创建偏好对。
奖励学习 训练设置 。使用 Qwen2.5-Omni 作为本文奖励模型的主干,使用前文收集的多维奖励数据进行监督微调。为了适配模型,应用 LoRA 来更新 Qwen2.5-Omni Thinker 内的所有线性层,同时保持视觉和音频编码器参数完全冻结。训练过程使用批次大小为 32,学习率为 ,共三个周期,大约需要 48 个 A100 GPU 小时。
评估协议与基线 。使用本文整理的 1K 个人工标注测试集来评估 Talking-Critic 的偏好对齐准确性,并与基线 Qwen2.5-Omni 模型进行比较。进一步采用 Sync-C 进行唇同步准确性评估,采用视觉质量(IQA)分数 进行视觉质量评估,并采用 SAM 从帧中分割前景人物,同时分别测量光流分数 以评估主体动态(SD)进行人物运动比较。对于 Sync-C、美学和 SD 指标,通过最大化区分高质量和低质量样本的准确性来自动确定最佳决策阈值。
定量结果 。下表 2 表明,与基础模型相比,本文奖励模型在所有三个维度上都实现了与人类偏好显著更接近的对齐。相比之下,现有的定量评估方法只能局限于某个维度的评估,无法精确对齐人类偏好。特别是,Sync-C 倾向于给夸张的唇部运动分配更高的置信度,而人类标注者始终偏好自然、流畅的发音——这导致 Sync-C 分数与实际人类偏好明显错位。
TLPO 偏好优化 训练设置 。采用基于 DiT 的 FantasyTalking 作为主干。所有训练均在 16 个 A100 GPU 上通过 AdamW 优化进行。在保持主干模型冻结的同时优化所有专家模块。在 TLPO 的第一阶段,本文使用单维度偏好对训练每个专家 LoRA 模块,秩为 128。将学习率设置为 , 设置为 5000。MN 和 VQ 专家训练 10 个周期,而鉴于其复杂性,LS 专家训练 20 个周期。在时间步-层自适应多专家融合的第二阶段,本文冻结所有专家 LoRA 层,并使用全维度偏好对训练最小参数融合门,学习率为 ,DPO ,以在 5 个周期内平衡整体偏好对齐。
评估协议与基线 。评估是在遵循先前工作 的基准测试集上进行的,该测试集涵盖了广泛的场景、初始姿势和音频内容。对于运动自然度,本文使用 HKC 和 HKV 评估手部质量和运动丰富度,并通过 SD 指标量化整体主体动态。使用 Sync-C 测量唇同步的置信度。对于视觉质量,采用 FID 和 FVD 来评估整体生成质量,并部署 q-align 来获得视觉质量(IQA)和美学(AES)的细粒度分数。虽然上述指标仅为运动自然度、唇同步和视觉质量提供了粗略的代理,但进行了用户研究,以更精确地检查与人类偏好的对齐情况。与最新的公开最先进方法进行比较,包括 FantasyTalking 、HunyuanAvatar、OmniAvatar 和 MultiTalk ,在推理过程中使用空提示以进行公平比较。
定量结果 。下表 1 显示本文的方法在所有指标上都达到了最先进的结果,生成的输出具有更自然的运动变化、显著改善的唇部同步和卓越的整体视频质量。这一性能源于 TLPO 偏好优化机制,该机制能够更好地理解肖像动画中的细粒度人类偏好,同时根据视频模型去噪要求和 DiT 层特性动态确定偏好的范围和权重。该框架实现了与视频模型偏好输出的精确对齐,从而更好地满足注重综合质量的实际应用场景。
定性结果 下图 3 展示了所有方法的比较结果。左侧,本文的 TLPO 模型生成自然且动态的全身运动,而竞争方法要么产生静态姿势,要么表现出夸张和扭曲的肢体运动。中间部分突出了 TLPO 即使在具有挑战性的远距离镜头中也具有稳健的唇部同步性能,而基线方法则表现出严重的不同步和错位。右侧,视觉质量比较揭示了其他方法的渲染缺陷。FantasyTalking 产生明显的伪影,OmniAvatar 存在过度曝光和细节模糊的问题,而 HunyuanAvatar 和 MultiTalk 都丢失了显著的面部细节。相比之下,TLPO 保持了高视觉保真度和结构完整性,尤其是在复杂的面部区域。
用户研究 为了进一步验证本文提出的方法与人类偏好的一致性,二十四名参与者被要求对每个生成的视频在三个维度(MN、LS 和 VQ)上进行 0-10 分的评分。如下表 4 所示,与基线相比,本文方法获得了优异的评分,在唇部同步、运动自然度和视觉质量上相对于最强基线(MultiTalk)分别实现了 12.7%、15.0% 和 13.7% 的相对改进。这项综合评估凸显了本文的方法在生成符合人类偏好的逼真且多样化的人类动画方面的优越性。
消融研究 通过几项消融研究探讨了每个提出设计的贡献。首先,为了评估本文的融合机制,测试了一个没有时间步门控的变体,仅依赖层间融合。还将本文提出的融合粒度与两种替代方案进行比较:专家级融合(为每个专家分配一个权重)和模块级融合(为单个线性层(例如查询投影)分配权重)。此外,通过在全维度偏好对上训练单个 LoRA 来建立原生 DPO 基线。还用 IPO和 SimPO替代,以评估替代的偏好优化方法。最后,本文通过改变偏好模块中 LoRA 的秩来研究其影响。
如下表 3 和下图 4 所示,没有时间步门控的变体比基线略有改进,但性能不如本文完整的 TLPO 方法。这是因为扩散过程中的不同时间步具有不同的优化要求,需要灵活调整相应的偏好注入。专家级和模块级融合都导致次优性能。这是因为不同的 DiT 层位于不同的流形中并服务于不同的生成功能,使得层级别融合优于专家级别融合。相比之下,模块级融合引入了过多的新参数,这使训练过程复杂化并导致次优结果。
DPO 及其变体实现了可比的性能,并伴有中等的视觉质量改进,但在运动自然度和唇部同步方面的增强可忽略不计。尽管本文确保了偏好数据中优质样本在所有维度上都优于劣质样本,但目标之间学习难度的差异引入了训练模糊性。因此,模型优先优化更容易实现的保真度目标以减轻合成伪影,而难以捕捉细微的运动自然度和唇部同步偏好,导致改进有限。这验证了由于视觉质量、唇部同步和运动自然度固有的竞争目标,对其进行解耦优化的必要性。性能随着 LoRA 秩的增加而单调提高,并在大约 128 时达到饱和。
结论 通过 TLPO ——一种新颖的扩散模型多目标偏好优化框架——解决了在音频驱动的人类动画中平衡运动自然度、视觉保真度和唇部同步的挑战。本文解决方案将相互竞争的偏好解耦到专门的专家模块中,以实现精确的单维度对齐,同时一个时间步和层双重感知融合机制在整个去噪过程中动态地调整知识注入。这有效解决了多偏好竞争问题,使得所有目标能够同时优化而无需权衡,从而实现全面的对齐。定性和定量实验表明, FantasyTalking2 在关键指标上超越了现有的 SOTA 方法:角色运动自然度、唇部同步准确性和视觉质量。本工作确立了细粒度偏好融合在基于扩散的模型中的至关重要性,并为高表现力和逼真的人类动画提供了一个稳健的解决方案。
参考文献 [1] FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation