如您有工作需要分享,欢迎联系:aigc_to_future
作者:Shuyuan Tu等
解读:AI生成未来
StableAvatar由来自复旦大学、微软研究院的团队共同提出,给定参考图像和音频序列,StableAvatar使参开图像根据音频进行视频生成,生成具有一致性ID、高逼真度和自然唇形同步的无限时长高质量视频。现有的基于扩散模型的音频驱动人类视频生成方法通常仅限于生成15秒以内的短视频——且在生成更长视频时,常常会出现严重的身体变形、面部不一致和颜色偏移。而StableAvatar成功克服了这些挑战。理论上,它可以生成数小时的连续视频而不会出现明显质量下降问题。大量实验表明StableAvatar是目前所有开源音频驱动人类视频生成模型中效果最好的,尤其在长视频生成上具有显著优势。目前训练代码和推理代码已开源,更多细节可以前往:https://github.com/Francis-Rings/StableAvatar.
论文链接:https://arxiv.org/pdf/2508.08248
Git 链接:https://francis-rings.github.io/StableAvatar/
亮点直击
时间步感知音频适配器(Timestep-aware Audio Adapter),使 StableAvatar 成为首个可端到端生成无限长度音频驱动虚拟人视频的视频扩散 Transformer 模型。 无需训练的音频原生引导机制,替代传统的 CFG(Classifier-Free Guidance)方法,进一步增强音频同步性。同时,提出了一种 动态加权滑动窗口去噪策略,提升了长视频合成的平滑度。 多个基准表明,StableAvatar 在性能上优于当前SOTA。基于 Wan2.1-1.3B 模型 的实现,在长视频生成的画质上超越了此前基于 Wan2.1-14B 模型 的方法。
效果一览
总结速览
解决的问题
当前音频驱动的虚拟人视频生成方法在处理长视频时面临以下挑战:
音频同步性差:生成的视频口型与音频不匹配。 身份一致性弱:角色在长视频中容易出现面部漂移或风格不一致。 潜在分布误差累积:由于依赖外部音频特征提取器,音频信息注入扩散模型时缺乏上下文一致性,导致生成质量随时间下降。 依赖后处理:现有方法往往需要额外的后处理步骤来弥补上述缺陷,降低了系统的端到端效率。
提出的方案
为了解决上述问题,提出了 StableAvatar,一个端到端、可生成无限长度高质量视频的音频驱动视频扩散 Transformer 模型。其核心创新包括:
时间步感知音频适配器(Time-step-aware Audio Adapter):在训练阶段引入,用于联合建模音频与潜在特征,抑制跨时间步的误差累积。 音频原生引导机制(Audio Native Guidance Mechanism):在推理阶段引入,利用扩散模型自身的联合预测结果作为动态引导信号,增强音频同步性。 动态加权滑动窗口策略(Dynamic Weighted Sliding-window Strategy):用于在时间维度上平滑融合潜在特征,提高长视频的连续性和平滑度。
应用的技术
StableAvatar 的实现融合了多项关键技术:
视频扩散 Transformer 架构:支持高质量、长时间序列的视频生成。 时间步感知调制机制:在音频适配器中引入时间信息,提升跨帧一致性。 自监督引导机制:无需额外训练判别器或分类器,直接从扩散过程内部提取引导信号。 滑动窗口潜在融合:借助动态权重策略,在生成过程中平滑过渡不同时间段的潜在表示。 基于 Wan2.1-1.3B 模型实现:以更小模型实现高质量长视频生成,优于此前基于更大模型(14B)的方案。
达到的效果
StableAvatar 在多个方面取得显著效果:
无限长度视频生成能力:首次实现无需后处理、端到端合成长视频的扩散模型。 音频同步性显著提升:引导机制有效对齐音频与口型。 身份一致性更强:时间步感知机制减少面部漂移与风格不一致问题。 生成质量优于现有 SOTA 方法:在多个基准数据集上超越当前最佳方法,尤其在长视频画质上,基于 1.3B 模型的 StableAvatar 超越了基于 14B 模型的旧方法。 高效可部署性:模型参数量更小,适合实际部署场景。
方法
如下图 3 所示,StableAvatar 基于常用的 Wan2.1,沿用了以往的工作。音频首先输入到 Wav2Vec 中以获得音频嵌入,随后通过本文的 Audio Adapter 进行精炼,以减少潜在分布误差的累积。精炼后的音频嵌入随后被输入到去噪 DiT 中。
参考图像的处理遵循 Wan2.1 的方式,通过扩散模型的两条路径进行:
(1) 沿时间轴与零填充帧拼接,并通过冻结的 3D VAE 编码器转换为潜在代码。该潜在代码进一步在通道维度上与压缩后的视频帧和二值掩码(第一帧为 1,其余帧为 0)拼接;
(2) 通过 CLIP 图像编码器编码以获得图像嵌入,该嵌入被输入至去噪 DiT 的每个图像-音频交叉注意力模块中,用于调节合成外观。
在推理过程中,本文将原始输入视频帧替换为随机噪声,其余输入保持不变。本文提出了一种新颖的 Audio Native Guidance 来替代传统的 CFG,以进一步促进唇形同步和面部表情。本文引入了一种动态加权滑动窗口去噪策略,用于在长视频生成过程中融合潜在特征以增强视频的平滑性。
时间步感知音频适配器
本文的目标是在音频引导下生成无限长度的虚拟人视频,同时保持内容一致性。以往的工作在生成超过 15 秒的虚拟人视频时,表现出明显的面部和身体扭曲以及颜色漂移。这一问题归因于它们的音频建模方式:将第三方的预训练音频嵌入直接通过交叉注意力注入扩散模型。当前的扩散主干缺乏音频相关的先验知识,导致在将音频嵌入注入扩散过程中,跨视频片段之间会累积显著的潜在分布误差。 这导致后续片段的潜在分布逐渐偏离最优分布。
为了解决这一问题,本文提出了一种新颖的时间步感知音频适配器,其中音频嵌入通过多个仿射调制和交叉注意力模块与时间步嵌入和潜在特征进行交互,如上图 3 所示。
具体而言,遵循相关方法,本文首先使用 Wav2Vec 提取原始音频嵌入 。由于当前状态会受到前后音频帧的影响,本文随后将其与邻近当前帧的音频嵌入拼接,得到音频嵌入 :
其中 是上下文长度。本文进一步将 输入到本文的 Audio Adapter 中,以解决误差累积问题。
给定一个时间步,按照相关方法,DiT 使用两个连续的 MLP 层来获得整体时间步嵌入 和投影后的时间步嵌入 ,其中 表示潜在空间的维度。
在扩散预训练中,潜在特征与时间步嵌入紧密耦合。每一个时间步嵌入对应一个独特的潜在分布,揭示了潜在特征与时间步嵌入之间的强相关性。由于这种强相关性,对 应用时间步感知的仿射调制可以隐式地桥接 与潜在特征 之间的联合关系,使扩散模型能够更有效地捕捉音频-潜在特征的联合表示,从而克服音频先验的缺乏。
所使用的调制(缩放和偏移)与 DiT 中的一致,以保持域一致性:其中 表示层归一化。 旨在将 投影到潜在维度上。为了进一步显式增强音频-潜在特征的联合建模,本文在 (作为查询)和 (作为键和值)之间执行交叉注意力,输出通过 进行调制,具体如下:
其中 指的是交叉注意力操作,其中 是查询(Query), 是键和值(Key 和 Value)。为了更全面地建立潜在表示与音频表示之间的联合关系, 通过 进行调制,以获得精炼后的音频嵌入 :
其中 和 分别表示在通道维度上重复两次以及可学习参数。本文最终通过交叉注意力将 注入到 DiT 中:其中 表示图像嵌入。
Audio Native Guidance
为了进一步增强音频同步性和面部表情,本文提出了一种新颖的 Audio Native Guidance 机制,用以替代传统的 CFG,它未考虑音频与潜在特征的联合关系。本文修改了去噪得分函数,以引导去噪过程朝着最大化音频同步性与自然性的方向前进。
具体而言,根据本文的 Audio Adapter, 依赖于潜在变量和给定音频。因此,本文将 视为 DiT 的一个额外预测,用于引导扩散模型在外部信号和模型参数条件下捕捉联合的音频-潜在分布。去噪过程如下所示:其中 、 和 分别表示修改后的采样过程、原始采样过程和音频。 和 是引导尺度。根据贝叶斯定理,我们得到:
由于 是一个常数概率,我们将其移除如下:
我们进一步将公式 8 转换为得分函数形式:
因此,推理公式可表示为:
其中 、 和 分别表示扩散模型、文本提示和参考图像。值得注意的是, 和 并不是引导因子,因为我们发现将 和 纳入引导会显著增加 GPU 资源消耗,同时对视觉质量提升并不明显。Audio Native Guidance 机制将 视为扩散模型的一个额外预测目标,使得模型能够被联合的音频-隐空间变量分布所引导,从而确保在去噪过程中音频与隐空间变量之间具有强相关性。即使基础模型缺乏音频先验,该机制也能显著减少音频驱动视频生成中的分布误差累积。
动态加权滑动窗口策略
为了提升合成长头像视频的平滑度,在推理过程中进一步提出了一种动态加权滑动窗口策略(Dynamic Weighted Sliding-Window Strategy,DWSW)。与以往的滑动窗口去噪策略相比,相邻窗口之间的重叠隐空间变量通过滑动窗口机制进行融合,融合权重依据相对帧索引进行对数插值,如算法 1 和下图 8 所示。 表示经 VAE 压缩后的总视频长度。融合后的隐空间变量被重新注入到相邻的两个窗口中,确保中央窗口的两个边界由混合特征构成。利用对数加权函数,在视频片段之间的过渡中引入渐进式平滑效果。早期阶段的权重变化更明显,而后期阶段则变化微弱,从而实现视频片段间的无缝连续性。
训练
使用重建损失对模型进行训练,可训练组件包括一个 Dit 的注意力模块和一个音频适配器(Audio Adapter)。我们引入由 Mediapipe 从输入视频帧中提取的人脸掩码 和唇部掩码 ,以增强对面部区域的建模能力:
其中 和 分别表示扩散隐空间变量和去噪后的隐空间变量。 是一个在区间 上均匀分布的随机变量。该分段目标分别监督唇形同步和面部表情,使得学习过程更具针对性。
实验
实现细节
本文训练数据集由三部分组成:Hallo3、Celebv-HQ 和从互联网上收集的视频,总计 1200 小时。参考以往工作,我们在 HDTF 和半身 AVSpeech 上评估模型性能。由于以往方法未开源测试数据集,我们分别从 HDTF 和 AVSpeech 中随机选取了 100 个视频(时长 5-20 秒)。此外,我们在从互联网上选取的 100 个未见视频(时长 2-5 分钟)上进行了额外实验,用于评估模型在长头像动画中的鲁棒性,称为 Long100。
本文DiT 使用 Wan2.1-I2V 1.3B 的预训练权重,而音频编码器从零开始训练。模型在 64 张 NVIDIA A100 80G GPU 上训练了 20 个 epoch,每张 GPU 的 batch size 为 1。我们设置学习率为 ,,。
与当前最先进方法的对比
定量结果。 在评估指标方面,使用 FID 和 FVD 来评估合成图像和视频的质量。进一步使用 Q-align 模型评估视频质量(IQA)和美学指标(ASE)。Sync-C 和 Sync-D 用于评估唇形与音频的同步性。CSIM 用于评估两张图像之间面部嵌入的余弦相似度。
与当前音频驱动头像视频生成的最新模型进行了比较,包括基于 GAN 的模型(SadTalker)和基于扩散的模型(基于 SD 的:AniPortrait、EchoMimic;基于 SVD 的:Sonic;基于 CogVideo-5B 的:Hallo3;基于 HunyuanVideo-13B 的:HunyuanAvatar;基于 Wan-14B 的:FantasyTalking、MultiTalk、OmniAvatar)。基于以往使用自驱动与重建方式评估定量结果的研究,我们在 HDTF、AVSpeech 和 Long100 上与上述模型进行了定量对比。值得注意的是,为了确保公平比较,所有模型在评估 Long100 之前均使用我们的数据集进行训练。结果如下表 1 所示。
观察到,即使所有对比模型在长视频生成中性能均有显著下降,StableAvatar 在面部质量、视频保真度和唇形同步方面仍然优于它们,同时保持了相对较高的单帧质量。具体而言,基于 Wan2.1-1.3B 的 StableAvatar 在 Long100 上的 CSIM 和 Sync-C 指标分别比领先对手 Wan2.1-14B 的 OmniAvatar 高出 80.3% 和 85.2%。
定性结果。 定性结果如下图 4 所示。值得注意的是,每段音频时长超过 3 分钟,包含复杂的节奏模式,而参考图像中包含了精细的外观细节。为简洁起见,我们仅展示了最后 2 分钟的选定帧。EchoMimic 出现了面部/身体扭曲和服装变化,而其他对比方法在视频前 15 秒内能够准确地修改参考唇形动作。
然而,当视频时长超过 15 秒时,所有对比方法都出现了音频与唇形不同步、模糊噪声、面部扭曲和颜色漂移的问题。尤其是 Hallo3 和 HunyuanAvatar 出现了严重的面部扭曲和音频-唇形不同步问题,嘴唇动作变得随机。而 FantasyTalking、MultiTalk 和 OmniAvatar 则面临颜色漂移、身体/面部扭曲以及音频-唇形不同步的问题。
相比之下,StableAvatar 能够根据给定音频准确地驱动图像动画,即使在生成超过 3500 帧之后仍能保留参考身份,凸显了我们模型在身份保持和生成生动、无限长度头像视频方面的优势。
长度讨论。 下图 2 显示,随着帧数的增加,StableAvatar 几乎没有出现质量漂移,尤其是在与以往模型对比时更为明显。从理论上讲,我们的 StableAvatar 能够合成数小时的视频而不会出现显著的质量下降。
消融实验
音频适配器。 消融实验以验证 StableAvatar 中核心组件的贡献,如下表 2 和下图 5 所示。值得注意的是,所有定量消融实验均在 Long100 数据集上进行。可以看到,移除核心组件会显著降低性能,尤其是在 CSIM 和 Sync-C/D 指标上,说明我们的组件在保持身份一致性的同时显著提升了视频保真度,特别是在长头像视频生成任务中。
相比之下,以往的长视频生成策略(使用 MF 和 SW)仍然面临显著的外观不一致和颜色漂移问题,因为它们仅仅在基本层面上处理了视频平滑性问题。
进一步进行了关于音频建模的消融实验,如下表 3 和下图 6(a) 所示。
通过分析结果,可以得到以下观察:
(1) 去除 Audio Adapter 会显著降低视频保真度和唇形同步性。可能的原因是当前扩散主干缺乏音频相关的先验知识,直接将第三方预训练提取器提取的音频嵌入注入扩散模型,会在视频片段之间引入显著的隐空间变量误差积累,从而逐步降低整体长视频质量。
(2) 去除 Modulation 或 CAttn 都会在一定程度上降低视频质量。其根本原因在于,时间步感知调制建立了音频与隐空间变量之间的联合建模桥梁,因为隐空间变量与时间步之间存在强相关性。CAttn 显式地将隐空间变量引入音频建模中,但如果没有对音频嵌入进行时间步调制,模型就难以有效建模联合的隐空间变量-音频空间。因此,时间步感知调制与 CAttn 是互补的,这一点也通过使用随机调制的实验结果得到了验证。
(3) StableAvatar 能够在长视频生成中显著提升面部质量,同时保持高视频保真度,因为我们的模型实现了音频与隐空间变量的联合建模,从而减少了视频片段间隐空间变量分布误差的积累。
误差积累。 进行了关于误差积累的消融实验,如下表 4 和上图 6(b) 所示。A 和 B 分别选择第 1–200 帧和第 3500–3700 帧进行评估。
CIEDE 衡量颜色漂移的程度。Baseline 移除了我们所有与音频相关的组件。有以下观察:
Baseline 在第 3500–3700 帧中出现了显著的视频质量下降。主要原因在于原始音频嵌入与原始主干网络先验存在冲突,导致每个片段中出现隐空间变量分布误差。随着生成帧数的增加,误差积累愈发严重,后续分布与目标分布之间的偏移不断增大。
使用 Adapter 的设置在后期帧区间中仍能相对保持视频保真度。这表明我们的 Audio Adapter 通过时间步感知调制帮助扩散模型克服音频先验的稀缺问题,从而解决误差积累问题。
本文引导策略也在一定程度上保证了长视频生成中的视频质量稳定性,因为它能够进一步缓解每个片段的隐空间变量误差。
音频相关组件确保了即使在生成超过 3500 帧之后,视频的一致性和保真度仍能保持稳定,未出现明显下降,确实解决了误差积累问题。
音频原生引导。 为验证提出的 Audio Native Guidance 的重要性,进行了关于不同策略的消融实验,结果如下表 5 和下图 7 所示。传统的 CFG 仅将每个外部条件视为与隐空间变量无关的独立信号,而我们的引导策略将音频嵌入视为与隐空间变量相关的部分,考虑了联合的音频-隐空间变量分布,从而进一步促进了唇形同步/自然性和视频保真度。
长视频策略。 将提出的 DWSW 与其他类型的长头像视频生成策略进行了比较,如下表 6 和上图 7 所示。可以看到,motion frame 和传统的 sliding-window 方法都无法消除视频片段连接处引起的抖动。相比之下,我们的 DWSW 利用对数插值动态地为不同上下文窗口分配权重,显著减轻了视频片段连接的影响。
应用与用户研究
速度与 GPU 资源。 在 Sec. A.5 中对 StableAvatar 与现有模型的推理速度和 GPU 显存消耗进行了比较。与领先竞品 OmniAvatar 相比,我们基于 Wan2.1-1.3B 的 StableAvatar 仅使用约 50% 的显存,推理速度提升了 10 倍,显著优于此前基于 Wan2.1-14B 的模型,在人脸质量与唇形同步方面表现更佳,突显了其在长头像视频生成中的优势。
全身头像视频。 在全身/半身头像动画上对 StableAvatar 进行了定性实验,结果见 Sec. A.6。参考图像中的每位主角都与一个物体(如乐器或苹果)进行交互。我们观察到,StableAvatar 能够在保持身份一致性的同时,以高保真度处理全身/半身头像动画,即使在剧烈的物体交互过程中亦然。
多头像动画。 在音频驱动的多头像动画上进行了实验,结果见 Sec. A.7。可以看到,本文模型能够根据给定音频对多个个体进行动画生成。
卡通头像。 为验证 StableAvatar 的鲁棒性,我们在音频驱动的卡通头像动画上进行了实验,见 Sec. A.8。我们观察到,模型能够根据给定音频合成自然的卡通头像视频,展现丰富的面部表情。
用户研究。 在 30 个精选视频上进行了用户研究,以评估用户对 StableAvatar 与其他竞品的偏好。参与者主要为高校学生和教职工。每轮实验中,参与者首先看到参考图像和音频,然后随机顺序观看两个视频(一个由 StableAvatar 生成,一个由竞品生成),并回答以下问题:L-A/A-A/B-A/I-A:"哪个视频在唇形/外观/背景/身份与音频或参考图像的对齐更好"。下表 7 展示了我们模型在主观评价方面的优势。
结论
StableAvatar,一种用于合成无限长度高质量头像视频的视频扩散 Transformer,配备了专门的训练与推理模块。StableAvatar 首先利用现成模型提取音频嵌入。为克服扩散主干缺乏音频先验的问题,StableAvatar 引入了 Audio Adapter 精炼音频嵌入。在推理阶段,为进一步增强唇形与音频的同步性,StableAvatar 使用 Audio Native Guidance 机制替代传统的 Classify-Free-Guidance。为提升长视频的平滑性,StableAvatar 还提出了动态加权滑动窗口策略。在多个数据集上的实验结果表明,我们的模型在生成无限长度高质量头像视频方面具有显著优势。
参考文献
[1] StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论