AI I024: 图片数字人：对话唱歌都很自然，文末一键包，还有comfyui一键包

2025年9月4日星期四

图片数字人：对话唱歌都很自然，文末一键包，还有comfyui一键包

最近发现一款不错的图片数字人项目，提供图片和一段语音就可以生成数字人视频，当然音频也可以是音乐。

最近发现一款不错的图片数字人项目，提供图片和一段语音就可以生成数字人视频，当然音频也可以是音乐。应对音乐口型很自然，感觉自媒体又可以多一个赛道了，废话不多说，直接上干货，不喜欢细节的直接文末一键包。

老规矩先看效果

项目简介

由阿里巴巴通义实验室（Tongyi Lab）提出的一种名为WAN-S2V的音频驱动的电影级视频生成模型。该模型旨在解决现有音频驱动角色动画方法在复杂影视制作中的不足，如细腻的角色互动、逼真的身体动作和动态摄像工作等。通过结合最新的DiT（Diffusion Transformer）基础模型和精心设计的数据采集、模型训练和推理策略，WAN-S2V在电影场景中实现了显著增强的表现力和真实性。

总述

得益于扩散模型的发展，音频驱动的人体视频生成取得了显著进展，从基于UNet的文本到图像模型发展到最新的DiT基文本到视频模型，视觉生成质量大幅提升。
现有研究的局限性：当前研究主要集中在单场景或多角色场景下的音频驱动模型，但在复杂的影视制作场景中仍面临挑战，如如何通过音频控制角色动作的同时保持与整体场景的一致性和协调性，以及如何通过音频和提示共同管理人物互动。
研究重点：本文主要关注音频驱动人类生成在复杂场景中的应用，如影视制作，旨在通过全面的数据采集、稳健的模型训练和巧妙有效的推理策略来提高音频驱动生成的有效性。

模型架构

模型构建：利用最新的Wan文本到视频基础模型构建音频驱动模型，旨在集成音频驱动能力同时保留其固有的文本控制。
训练数据：利用Qwen-VL的视频理解能力进行详细的文本描述，特别是关于角色运动的描述。为了支持复杂场景的生成，如影视制作，从现有的开源数据集和内部收集的说话和唱歌角色视频数据集中整理了综合训练数据集。
训练策略：为了避免仅训练部分网络参数导致的文本和音频控制冲突，假设更大的模型容量更有利于学习更好的和谐文本和音频控制。为此，采用了结合FSDP和Context Parallel的混合训练策略，显著加速了训练过程。此外，还采用了多阶段训练方案，包括音频处理模块的预训练、整个数据集的全面预训练和高质量数据的微调。

一键包测试

给大家找了个一键包，可以直接使用

下载后点击【程序运行.bat】弹出界面如下：