2025年10月3日星期五

口型同步如此简单!Infinite Talk 轻松实现无限时长、精准对口型的视频配音|ComfyUI 教程

Infinite Talk 支持无限制时长视频生成——无论音频多长,都能精准匹配口型,一键生成完美对口型视频。

先来看两个由Infinite Talk做的视频,上面的是由图片+音频生成的对口型视频,下面的是由视频+音频生成的对口型视频。
(文章中涉及到的工作流链会提供在文末)

项目地址:
https://github.com/MeiGen-AI/InfiniteTalk
图片
Infinite Talk这个项目是基于kajai的wanvideo扩展,所以工作流中会用到很多kajai的节点。
图片
模型分为单人多人两种模型,单人工作流和多人工作流要分别下载不同的模型。
模型下载:
图片
支持视频到视频和图片到视频两种方式的对口型视频。但它实质上是一个音频驱动的模型,不论是视频到视频,还是音频到视频,都是由音频驱动的。
一、单人对口型视频
工作流介绍:
下图工作流的右边是主模型部分,使用了Wan-i2v模型。左上块交换节点设置为20,如果你的显存比较少,可以提升到30-40之间。
左面中间的位置是加速lora,使用的模型是i2v的lightx2v,你也可以用t2v的加速lora。
左下角是最重要的模型:Infinite Talk模型,这里使用的是单人模型(single),另外一点,这里用来加载InfiniteTalk模型的节点是MultiTalk节点,视频编码器加载的是vision_h。
图片
Infinite Talk可以用参考视频或参考图片生成对口型视频,这里要根据自己的需求选择使用视频加载或图像加载节点。
图片
参考音频上传后经过一个音频分离(AudioSeparation),只保留人声,再经过一个音频裁剪节点,这里可以设置音频的时长,比如从第0秒开始到第6秒结束,那么生成的视频也就只有6秒钟。
图片
另外,不要忘记设置生成视频的宽高尺寸。
图片
如果你是在我提供的runninghub上运行在线工作流的,我对工作流做了一个简单的修改,让生成的视频顶部叠加一个色块,这个色块刚好盖住水印,这样你只要在剪映里把这个色块剪掉,就是一个无水印的视频了。
图片
将视频上面这块红色的色块裁剪掉,水印就没有了。
图片
二、多人对口型视频
多人工作流和单人的大同小异,今天我们以双人为例。
先准备一个双人对话的音频,可以用我们之前讲的VibeVoice来生成,具体生成方法见下面的文章。
VibeVoice:微软最新开源的长语音TTS模型|声音克隆|多人对话|90分钟连贯语音
图片
多人对话工作流要切换成多人模型。
图片
以两人对话为例,人物从左向右数分别是音频1和音频2。
图片
多人音频有两种类型,分别是para和add

para(parallel)=「左右并行」,可以理解为多人交替说话

add(additive)=「前后叠加」,可以理解为一前一后说话

图片
  • para(parallel)=「左右并行」
    两条音频被当成同一时间段内的左右声道;画面里左侧人物对应 audio_1,右侧人物对应 audio_2,两人同时开口
    使用方法:并行模式下,如果想让「左面的人先开口 → 右面的人再开口」,只要在音频素材里控制好时间轴即可:
    把两条等长音轨分别做成「只有左人出声,右轨静音」和「只有右人出声,左轨静音」;
    InfiniteTalk 会按时间码把两条轨同步播放,于是画面左侧角色先说话,右侧角色后接话,听上去就像一前一后,却仍在同一时间段内"并行"播出。

    (音频参考下图)

    图片

  • add(additive)=「前后叠加」
    两条音频被顺序拼接成一条长音轨;画面里只有一个人物(或先左后右)依次说话
    使用方法:add模式比较简单,可以理解为将两个人的音频进行拼接,例如左边的人说话3秒钟,紧接着右边的人说话2秒钟,将两个人的音频拼接后成一条音频,还需要对两个音频分别指定裁剪时间,音频1是0-3秒,音频2是3-5秒。

图片
自动音频长度设置
在多人工作流中还有一自动音频长度设置,具体工作原理如下:
1、在AudioCrop里设置一个比明显比音频素材长的音频长度(为了防止音频被不小心减短,所以如果你不想裁剪音频的话,可以按Ctrl+B把这个节点忽略掉)
2、经过Audio Get Length节点读取音频长度
3、经过To Int | Basic节点四合五入为一个整数
3、经过Simple Math节点进行简单运算:a*25+25,即音频长度(秒)*25帧/秒+25秒=整个工作流的音频长度。这个音频长度就是最后生成视频的长度。
解释一下为什么音频长度要乘以25帧/秒,因为音频类工作流为了获得更好的效果,最好的帧速率为25帧/秒,我们最后输出的视频的帧速率就是25帧/秒。
图片
看下最后的成品。

文中用到的工作流:

infinitetalk_图片对口型_双人工作流

https://www.runninghub.cn/post/1974013116696629250

infinitetalk_图片对口型_单人工作流

https://www.runninghub.cn/post/1974020465935167490

vibevoice-声音克隆-多人对话

https://www.runninghub.cn/post/1963817321922007041


----------我是分割线----------


【如何获取工作流】

目前RunningHUB可以说是插件和模型更新最快的网站了,如果想体验 ComfyUI最新版的功能,可以到RunningHUB上面去体验。
如果通过我的邀请码注册,可以获得1000点积分,这些积分可以白嫖很长时间了,每日登录还能再获得100积分。
注册链接:
https://www.runninghub.cn/?inviteCode=3qo65owt
邀请码:3qo65owt
我的很多工作流也都上传到了RunningHUB平台上面,在平台上面搜索"青橙"就能搜到,这些工作流可以免费下载到本地,也可以用刚刚注册时送的积分免费在平台上面体验。
图片


END




感谢您的阅读,麻烦点个赞+在看吧!


没有评论:

发表评论

北航&美团等最新EditThinker:给AI修图装上“大脑”,Flux、OmniGen2瞬间智商暴涨!

点击下方 卡片 ,关注" AI生成未来 " 👇扫码 免费加入 AI知识星球 ,如您有工作需要分享,欢迎联系: aigc_to_future 作者:Hongyu Li等 解读:AI生成未来 论文链接:https://arxiv.org/pdf/2512.0...