2025年5月30日星期五

单图+语音秒变“戏精”视频!腾讯突破音频驱动动画瓶颈:声情并茂、多角色对话丝滑生成!

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:腾讯Hunyuan

解读:AI生成未来

图片

文章链接:https://arxiv.org/pdf/2505.20156 
项目链接:https://hunyuanvideo-avatar.github.io/ 
模型链接:https://huggingface.co/tencent/HunyuanVideo-Avatar 
代码链接:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

HunyuanVideo-Avatar能够通过输入角色图像和音频生成视频。 该技术可实现多角色、高一致性且动态的人物动画创作,并能精准呈现音频中传递的情感
HunyuanVideo-Avatar能够通过输入角色图像和音频生成视频。 该技术可实现多角色、高一致性且动态的人物动画创作,并能精准呈现音频中传递的情感

亮点直击

  • 角色图像注入模块:解决因参考图像使用导致的动态性与一致性权衡问题,提升前景和背景区域的整体运动质量。
  • 音频情感模块(AEM):将视频角色的情感与音频驱动的情感线索对齐,提高面部表情的真实感。
  • 面部感知音频适配器(FAA):通过在隐空间中对目标面部区域进行掩码,实现多角色的局部音频驱动动画,促进多角色对话生成。

多种功能

图片
图片
图片

总结速览

解决的问题

  • 动态性与角色一致性难以兼顾:现有方法在生成动态视频时,容易丢失角色一致性,导致人物表情、姿态不自然。
  • 音频情感与角色表情对齐不精准:生成的动画难以准确反映音频中的情感变化,影响真实感。
  • 多角色音频驱动困难:现有方法无法同时驱动多个角色,难以生成自然的多角色对话场景。

提出的方案

  • 角色图像注入模块(Character Image Injection Module)
    • 替换传统的基于加法的角色条件注入方式,避免训练与推理时的条件不匹配问题。
    • 通过通道维度注入角色特征,增强动态运动的同时保持角色一致性。
  • 音频情感模块(Audio Emotion Module, AEM)
    • 从参考图像中提取情感线索,并映射到生成视频中,实现精细化的情感控制。
  • 面部感知音频适配器(Face-Aware Audio Adapter, FAA)
    • 通过隐空间的面部掩码隔离不同角色,实现独立音频驱动,支持多角色对话生成。

应用的技术

  • 多模态扩散 Transformer(MM-DiT):结合扩散模型和 Transformer 架构,支持高质量视频生成。
  • 跨注意力机制(Cross-Attention):用于音频与视频特征的融合,实现精准的情感与动作同步。
  • 隐空间掩码(Latent-Level Face Mask):在特征层面分离不同角色的面部区域,实现多角色独立驱动。

达到的效果

  • 高动态性 & 强角色一致性:生成的视频动作自然,同时保持角色身份不变。
  • 精准情感对齐:角色表情与音频情感高度匹配,提升真实感。
  • 多角色对话生成:支持多个角色独立受不同音频驱动,适用于电影、虚拟社交等场景。
  • 超越 SOTA:在基准数据集和真实场景数据集上均优于现有方法。

方法

给定参考图像、驱动音频和角色面部掩码,本文的方法可以基于驱动音频生成单个或多个角色的说话视频。本文方法的整体框架如下图2所示。采用HunyuanVideo作为主干网络,这是一个基于MM-DiT架构构建的视频生成模型。

图片

本节探讨了角色图像注入模块,该模块可以同时保持角色一致性和生动性。接着讨论了如何将音频适配器应用于面部区域以实现多角色音频驱动动画。然后讨论了情感对齐模块。最后简要介绍了长视频生成机制。

角色图像注入模块

在以往的I2V方法中,通常使用填充帧进行视频推理。虽然这种方法能确保角色、背景和前景的良好完整性和一致性,但也限制了生成视频的运动动态性。此外,填充帧会导致训练和推理过程之间的错位。移除填充帧进行视频推理可以获得更好的运动动态性,但会严重损害角色一致性和完整性。

因此,本文探索了三种角色图像注入机制(如下图3所示):
(a) 参考图像和视频通过相同的tokenizer处理,生成的隐空间表示在token维度拼接;
(b) 角色图像先重复T次(T表示视频长度),在通道维度与原始视频拼接后输入tokenizer1,同时角色参考图像输入tokenizer2,两者在token维度拼接后输入模型;
(c) 参考图像先重复T次输入tokenizer2,然后通过全连接层组成的投影模块直接加到视频隐空间表示上输入模型。

图片

机制(c)相比(a)和(b)展现出更好的效果,它在提高运动动态性的同时,确保了视频中角色、背景和前景的一致性和完整性,显著提升了视频质量。具体消融对比实验请参考实验部分。

由于主干网络的tokenizer1是专门为视频训练的,需要额外添加tokenizer2来适配图像分支。该tokenizer的权重从主干网络的tokenizer复制而来,我们发现这种方法可以加速模型收敛。

面部感知音频适配器

在音频条件处理方面,使用Whisper提取音频特征;对于面部掩码,采用InsightFace方法检测面部区域的边界框。

给定由n′帧组成的音视频序列,为每帧提取音频特征,得到形状为n′×10×d的特征张量(其中10表示每音频帧的token数)。对应的视频隐空间表示通过预训练的3D VAE在时间维度压缩为n帧,其中(加1是为了包含未压缩的初始帧,4是时间压缩比)。此外,为融入身份信息,在开头拼接身份图像,最终得到n+1帧的视频隐空间表示。

为确保音频特征与压缩后视频隐空间表示的时间对齐,我们首先在初始帧前对音频特征序列进行填充,产生总共(n+1)×4个音频帧。然后将每四个连续音频帧聚合为一个,最终得到与视频隐空间表示结构对齐的音频特征张量

图片

为确保面部掩码与压缩后的视频隐空间表示在时间上对齐,将初始帧对应的面部掩码设为1,并使其总共包含个掩码帧。这样得到的掩码在时间和空间维度上都与视频隐空间表示保持对齐。

在获得时间对齐的音频特征后,通过交叉注意力机制将音频信息注入视频隐空间表示中。为避免不同时间步之间的干扰,采用空间交叉注意力策略,在每个时间步独立执行音频注入。每个音频帧仅与其时间对齐的视频帧的空间token进行交互,且交叉注意力在每个时间索引上独立应用。

为此,将视频隐空间表示的时间维度与空间维度解耦,并仅在空间轴上应用注意力机制:

图片

其中是控制音频特征影响权重的系数。

音频情感模块

为使音频传达的情感与角色面部表情对齐,使用预训练的3D VAE将情感参考图像压缩为特征,然后通过全连接层和空间交叉注意力机制将这些特征注入HunyuanVideo的Double Block模块。具体而言,参考图像特征作为Key和Value,原始视频隐空间表示作为Query。这种方法将情感参考图像的信息与掩码后的视频隐空间表示相融合,使模型能更好地理解音频情感与面部表情之间的关系。

将该过程形式化表示:首先对情感参考图像进行编码,其中表示情感参考图像的编码特征。接着通过以下步骤将这些特征整合到视频隐空间表示中:

  1. 将视频隐空间表示重塑为时空维度
  2. 应用全连接层和空间交叉注意力注入情感特征,得到
  3. 最后恢复原始结构:
图片

其中是可学习的缩放因子,用于控制情感参考特征对视频隐空间表示的影响程度。值得注意的是,发现将该模块插入Single Block结构时,模型无法有效学习情感线索;而将其集成到Double Block结构中时,模型能更好地驱动和表现角色情感。这表明在复杂的情感-表情映射任务中,Double Block架构对捕捉和呈现情感细节具有关键作用。

长视频生成

HunyuanVideo-13B模型仅能生成129帧的视频,通常短于音频时长。为解决生成长视频的挑战,本文采用Sonic提出的时间感知位置偏移融合方法(Time-aware Position Shift Fusion),成功将其适配于基于MM-DiT架构的HunyuanVideo-13B模型并取得良好效果。

该融合策略简洁高效,不会增加额外的推理或训练成本,能有效缓解视频生成中的抖动和突变问题。如下算法1所示,模型在每个时间步以音频片段为输入预测对应隐空间表示,并通过起始偏移量(实验表明3-7为有效取值)与上一时间步的片段平滑衔接,每次向前滑动步。这种方法使HunyuanVideo-Avatar能自然衔接上下文,实现跟随音频提示的连续视频生成。

图片

实验

实验设置

实现细节
本文以HunyuanVideo-I2V作为HunyuanVideo-Avatar的基座模型,训练过程分为两个阶段:第一阶段仅使用纯音频数据训练以建立基础的音画对齐能力;第二阶段采用音频与图像数据1:1.5的混合训练策略以提升运动稳定性。训练数据分辨率覆盖704×704至704×1216范围。训练过程中固定LLaVA与3D VAE的参数,其余可学习参数均参与更新。实验使用160张96GB显存的GPU,设置全局批大小为40,学习率为

数据集
为获取高质量训练数据,采用LatentSync过滤音画不同步数据,并利用Koala-36M等工具剔除低亮度或低美学价值的数据。通过标准化筛选流程,最终获得50万条带人物语音的训练样本,总时长约1,250小时。测试阶段选取公开人物数据集CelebV-HQ(包含多样化场景)和HDTF(含高分辨率视频及更多主体)评估各方法的人物动画能力。针对目前缺乏公开全身动画测试集的情况,我们自建了包含250段视频的全身动画测试集,覆盖200种身份,涉及不同种族、年龄、性别、风格与初始动作。

评估指标与基线对比
采用Q-align视觉语言模型(VLM)评估视频质量(IQA)与美学指标(ASE),使用FID和FVD衡量生成视频与真实视频的分布距离。此外,通过VBench 的平滑度指标评估视频运动稳定性,采用Sync-C量化音画同步性。除客观指标外,还组织30名用户进行主观评估,从唇形同步(LS)、身份保持(IP)、全身自然度(FBN)、面部自然度(FCN)四个维度对生成结果评分。为全面验证方法先进性,在人物动画任务中与Sonic、EchoMimic系列、Hallo-3、Omnihuman-1等前沿方法对比;在全身动画任务中,首先将Hallo3 、FantasyTalking和Omnihuman-1在构建的测试集上进行比较。

与前沿方法对比

定性结果
在人物动画任务中,本文主要在HDTF数据集上与Sonic、EchoMimic系列及Hallo-3进行对比,该数据集侧重唇形同步与面部表情准确性。如下图4所示,本文的方法在该数据集上能生成视频质量更高、面部表情更自然生动、视觉效果更美观的结果。在全身动画任务中,图4展示了我们的模型对不同风格角色、情感控制及音频驱动多角色场景的有效性。随后在野生全身数据集上与Hallo3、FantasyTalking和OmniHuman-1对比,下图6表明本文的方法生成视频在前景/背景变化、角色运动等方面更自然,同时实现更精确的唇形同步与更好的角色一致性,从而获得更优的整体视频质量。这些改进得益于对音频适配器模块和角色图像注入模块的针对性设计,使方法更能满足实际应用需求。

图片
图片
图片

定量结果
为全面验证人物动画任务的优越性,在CelebV-HQ和HDTF测试集上对比了基线方法的各项指标。如下表1所示,本文的方法在FID、FVD、IQA、ASE和Sync-C上均取得最优性能,证明了方法在人物动画生成与音画同步方面的有效性。在全身动画任务中,基于自建测试集的实验结果显示(表1),本文的方法在多数评估指标上达到最佳,验证了其在全身动画生成与音画同步方面的能力。

图片

用户调研
为进一步验证方法有效性,在野生全身动画数据集上开展主观评估。30名参与者从唇形同步(LS)、身份保持(IP)、全身自然度(FBN)、面部自然度(FCN)四个维度进行1-5分制评分。下表2结果表明,得益于角色图像注入模块和面部感知音频适配器的增强,HunyuanVideo-Avatar在IP和LS维度显著优于现有基线。由于OmniHuman-1未开源且其在线服务包含超分处理,在主观评估中具有天然视觉优势,加之我们的效果继承了Hunyuanvideo的某些固有问题,因此在FCN和FBN指标上较Omnihuman-1存在一定差距。
图片

消融实验与讨论

角色图像注入模块消融
本文主观评估了三种角色图像注入模块在唇形同步(LS)、视频质量(VQ)、身份保持(IP)、运动多样性(MD)四个维度的表现。下表3结果表明,本文的方法在视频动态表现与角色一致性方面更具优势。

图片

音频情感模块消融实验
下图7(a)评估了音频情感模块对视频角色面部情绪的影响。实验表明,若仅通过文本引导角色情绪而禁用该模块,模型无法有效理解或将情感映射至角色面部。通过音频情感模块注入情感参考图像后,模型能更好地将参考图像中的情绪信息迁移至角色面部,从而显著提升音频情感与角色表情的匹配度。

面部感知音频适配器消融实验
图7(b)验证了该模块在多角色音频驱动动画中的作用。结果显示,未使用面部掩模(Face Mask)约束音频影响区域时,参考图像中所有角色均受音频信息干扰,导致模型驱动全部角色;而应用面部掩模后,模型仅驱动掩模指定的单个角色。当掩模位置移动时,音频信息会精准作用于另一角色面部,由此实现多角色的独立音频驱动。

图片

结论

HunyuanVideo-Avatar——一种兼具角色一致性与动态运动表现的音频驱动人体动画方法。通过引入角色图像注入模块自适应平衡动态性与一致性,有效解决了二者固有的权衡问题,显著提升生成视频的自然度与多样性。为确保音频情感与角色表情的匹配,本文设计音频情感模块将情感参考图像中的情绪线索迁移至目标动画;针对多角色场景,采用潜空间掩模技术将音频驱动效果局部化至特定面部区域,通过定向掩模调制实现不同角色的独立控制。大量定性与定量实验证明,HunyuanVideo-Avatar在视频动态性、主体一致性、唇形同步精度、音情表达对齐及多角色场景等方面均超越现有方法。

参考文献

[1] HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

链上操作太难?Beratown 来救场了

也许这次,我们离"人人可用"的链上世界,近了一点点。不是所有人都需要理解 RPC、LST、veToken。但每个人都有权利参与。 链上操作越来越强大,但也越来越复杂。 这一年,你是不是也有这样的感受: 想换个代币,要先找是哪条链、哪个协议 想参与借贷,得先...