最近发现一款不错的图片数字人项目,提供图片和一段语音就可以生成数字人视频,当然音频也可以是音乐。
得益于扩散模型的发展,音频驱动的人体视频生成取得了显著进展,从基于UNet的文本到图像模型发展到最新的DiT基文本到视频模型,视觉生成质量大幅提升。
现有研究的局限性:当前研究主要集中在单场景或多角色场景下的音频驱动模型,但在复杂的影视制作场景中仍面临挑战,如如何通过音频控制角色动作的同时保持与整体场景的一致性和协调性,以及如何通过音频和提示共同管理人物互动。
研究重点:本文主要关注音频驱动人类生成在复杂场景中的应用,如影视制作,旨在通过全面的数据采集、稳健的模型训练和巧妙有效的推理策略来提高音频驱动生成的有效性。
模型架构
模型构建:利用最新的Wan文本到视频基础模型构建音频驱动模型,旨在集成音频驱动能力同时保留其固有的文本控制。
训练数据:利用Qwen-VL的视频理解能力进行详细的文本描述,特别是关于角色运动的描述。为了支持复杂场景的生成,如影视制作,从现有的开源数据集和内部收集的说话和唱歌角色视频数据集中整理了综合训练数据集。
训练策略:为了避免仅训练部分网络参数导致的文本和音频控制冲突,假设更大的模型容量更有利于学习更好的和谐文本和音频控制。为此,采用了结合FSDP和Context Parallel的混合训练策略,显著加速了训练过程。此外,还采用了多阶段训练方案,包括音频处理模块的预训练、整个数据集的全面预训练和高质量数据的微调。
没有评论:
发表评论