今天给大家介绍的 FLOAT 是一种基于流匹配的音频驱动的说话肖像视频生成方法,可以增强语音驱动的情感运动。
今天给大家介绍的 FLOAT 是一种基于流匹配的音频驱动的说话肖像视频生成方法,可以增强语音驱动的情感运动。该方法唇形同步质量高,生成速度还很快。6秒音频完美生成语音/口型/表情。
情绪转移
由于 FLOAT 是基于语音驱动的情绪标签进行训练的,因此它可以在推理阶段重新定向说话人像的情绪。具体来说,我们可以用一个简单的独热情绪标签来处理预测的语音驱动情绪标签,然后通过无分类器的矢量场进一步细化该标签。这使得用户即使在驾驶语音传达出模糊或混合情绪时也能细化情绪。
与最先进的方法的比较
与最先进的非扩散方法和基于扩散的方法进行了比较。对于非扩散方法,我们选择了 SadTalker 和 EDTalk。对于基于扩散的方法,我们选择了 AniTalker、Hallo 和 EchoMimic。
相关链接
项目:https://deepbrainai-research.github.io/float 地址:https://github.com/deepbrainai-research/float ComfyUI:https://github.com/yuvraj108c/ComfyUI-FLOAT
论文介绍
随着基于扩散的生成模型的快速发展,人像动画取得了显著成果。然而,由于其迭代采样的特性,它在时间一致性视频生成和快速采样方面仍然面临挑战。本文提出了一种基于流匹配生成模型的音频驱动说话人像视频生成方法 FLOAT。我们将生成模型从基于像素的潜在空间转移到学习的运动潜在空间,从而能够高效地设计时间一致性运动。为了实现这一点,我们引入了一个基于 Transformer 的矢量场预测器,它具有简单而有效的逐帧调节机制。此外,我们的方法支持语音驱动的情感增强,从而能够自然地融入富有表现力的动作。大量实验表明,我们的方法在视觉质量、运动保真度和效率方面优于最先进的音频驱动的说话人像方法。
方法概述
音频驱动的说话肖像旨在使用单一源肖像图像和驱动音频合成说话肖像视频。FLOAT 基于运动潜在自编码器构建,该编码器将给定的肖像图像编码为身份运动潜在表征。我们通过流匹配(采用最优传输轨迹)生成音频调节的说话肖像运动潜在表征。为了增强生成的说话运动的自然度,我们加入了语音驱动的情绪标签,从而提供了一种自然的情绪感知说话肖像运动生成方法。
实验结果
结论
论文提出了 FLOAT 模型,这是一个基于流匹配的音频驱动说话肖像生成模型,该模型利用学习到的运动潜在空间。作者引入了一个基于 Transformer 的矢量场预测器,从而实现了时间一致性的运动生成。此外将语音驱动的情感标签融入到运动采样过程中,以提高音频驱动说话运动的自然度。FLOAT 通过流匹配缩短采样时间,同时保持卓越的样本质量,解决了当前基于扩散的说话肖像视频生成方法的核心局限性。大量实验验证了 FLOAT 在视觉质量、运动保真度和效率方面达到了最佳性能。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论