添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
由复旦大学、微软亚洲研究院、西安交通大学以及腾讯混元联合提出的 StableAvatar 是首个端到端视频扩散转换器,它以参考图像和音频为条件,无需任何后处理即可合成无限长度的高质量音频驱动的头像视频。
StableAvatar 生成的音频驱动头像视频,展现了其合成无限长且身份保留视频的强大能力。视频时长超过 3 分钟(FPS=30)。Frame-X 表示合成头像视频的第 X 帧。
效果展示
所有动画均由 StableAvatar 直接合成,无需使用任何后处理工具,例如换脸工具 FaceFusion 或人脸修复模型(例如 GFP-GAN 和 CodeFormer)。
相关链接
论文:https://arxiv.org/abs/2508.08248 主页:https://francis-rings.github.io/StableAvatar/ 代码:https://github.com/Francis-Rings/StableAvatar Demo: https://www.bilibili.com/video/BV1hUt9z4EoQ
论文介绍
目前,用于音频驱动头像视频生成的扩散模型难以合成具有自然音频同步和身份一致性的长视频。本文介绍了 StableAvatar,这是首个端到端视频扩散变换器,无需后期处理即可合成无限长的高质量视频。StableAvatar 以参考图像和音频为条件,集成了定制的训练和推理模块,以实现无限长的视频生成。我们观察到,现有模型无法生成长视频的主要原因在于其音频建模。它们通常依赖第三方现成的提取器来获取音频嵌入,然后通过交叉注意力机制将其直接注入扩散模型。由于当前的扩散主干网络缺乏任何与音频相关的先验知识,这种方法会导致视频片段之间严重的潜在分布误差累积,从而导致后续片段的潜在分布逐渐偏离最优分布。
为了解决这个问题,StableAvatar 引入了一种新颖的时间步长感知音频适配器,通过时间步长感知调制来防止误差累积。在推理过程中,提出了一种新颖的音频原生引导机制,利用扩散层自身不断演化的联合音频潜在预测作为动态引导信号,进一步增强音频同步。为了增强无限长视频的流畅度,引入了一种动态加权滑动窗口策略,该策略会随时间推移融合潜在预测。基准测试中的实验从定性和定量两个方面证明了 StableAvatar 的有效性。
方法概述
StableAvatar 的架构。(a)表示音频适配器的结构。图像编码器和文本编码器的嵌入被注入到 DiT 的每个块中。给定音频利用 Wav2Vec 提取音频嵌入。为了对联合音频潜在表示进行建模,音频嵌入被输入到音频适配器中,并通过交叉注意力机制将其输出注入 DiT。
实验结果
结论
StableAvatar 是一个视频扩散变换器,它拥有专门的训练和推理模块,用于合成无限长的高质量头像视频。StableAvatar 首先利用现成的模型来获取音频嵌入。为了克服扩散主干网络音频先验的匮乏,StableAvatar 引入了一个音频适配器来优化音频嵌入。在推理方面,为了进一步增强与音频的唇音同步,StableAvatar 引入了一种音频原生引导机制来取代传统的 ClassifyFree-Guidance 机制。为了提高长视频的流畅度,StableAvatar 进一步提出了一种动态加权滑动窗口策略。在各种数据集上的实验结果证明了该模型在生成无限长的高质量头像视频方面的优势。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论