阿里发布的音生成视频模型 Wan S2V 模型,理论上可以生成无限时长的视频,支持多种语言,比如中文、英文、日本等,同时也支持多种风格的角色,比如真人、2D卡通、3D卡通,甚至支持动物的语音到视频。
先看下效果:
看完视频后,感觉这视频效果是不是还挺不错的,口型基本上比较贴合。
安装方法:
我们可以在Wan2.2抱抱脸上的diffusion模型列表里找到它的模型,模型名字叫wan2.2_s2v_14B,有bf16和fp8两个版本。
模型下载:
https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models
除了14B模型外,它还有一个把声音转成向量的模型wav2vec2
https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/audio_encoders
模型放置路径:
14B模型放在cmfyUI的diffusion_models文件夹内,wav2vec2模型放在audio_encoders文件夹内。
工作流讲解:
模型加载部分
主模型是我们刚刚下载的s2v_14B模型,CLIP和VAE和和W2.2是通用的,另外就是这里加载了一个lightx2v_I2V的加速lora,让整个工作流速度更快。
图像加载和音频加载
图像加载和音频没有什么特殊强调的地方,这里比较特殊的是AudioEncoderLoader节点,这里加载的是我们上面提到的wav2vec2模型,这个的模型名字虽然带着english,但其实是支持中文的。
我们上传的音频和wav2vec2模型一起连接到音频编码节点,然后再和我们上传的参考图片同时连接到旁边的万相声音和图像到视频节点(WanSoundlmageToVideo),最后共同连接到采样器里。
提示词部分:
因为这个工作流的主要原理是通过音频驱动视频,所以在有了参考图片和音频后,提示词就显得不那么重要了,所以可以简单的写上诸如"一个女人在唱歌"或"一个女人在说话"之类的简单提示词就可以。
因为我们刚刚上传的图片是个宽幅的,所以视频的宽高我设成了一个宽屏的,时长我根据上传音频的长度设成了12秒。
为了方便大家设置,我把视频宽高和时长参数单独设了一个节点。
因为工作流中加了加速lora,所以步数可以设到8步,这样可以减少视频生成的时间。
这里特别提一下WanSoundlmageToVideo这个节点,它除了有参考图片生成视频外,还有control net控制和动作参考的功能,实际上就是文生视频、图片对口型和视频对口型功能。图片对口型的功能我们已经讲过了,另外两个功能我们下次找个时间再讲解。
本文用到的工作流:
https://www.runninghub.cn/post/1963817271302115329
----------我是分割线----------
【如何获取工作流】
END
感谢您的阅读,麻烦点个赞+在看吧!
没有评论:
发表评论