2026年3月2日星期一

Qwen3语音克隆工作流详解:三种克隆方法实操对比与效果演示

本文详细解析了在RunningHub平台上基于Qwen3的三个TTS声音克隆工作流:基础声音克隆、视频提取声音克隆(无需手动输入文本)和音频输入克隆(可切换视频模式)。操作均需积分运行,注册赠送积分可免费体验。核心要点包括参考音频/视频准备、自动文本转写功能、语速控制技巧及生成音频效果对比,适合对AI语音克隆技术感兴趣、需要快速实现声音复制的用户参考。

Tags:

RunningHub三个TTS声音克隆工作流详解

首先来到RunningHub,我把工作流都构建在这里了。在搜索栏搜索"青橙",随便点击一个工作流,通过简介区的链接或者邀请码注册,可以赠送1000点积分,每天登录还能再送100点,这些积分足够免费玩很长时间了。
点击头像进入主页,点击工作流,搜索"TTS",一下子搜到了好几个,今天主要讲其中三个工作流的用法。

工作流一:基础声音克隆

这个工作流可以通过AI应用工作流两种方式使用,AI应用是最简单的入口。
AI应用用法:上传一段想要克隆的参考音频,然后填入这段音频对应的文字内容,最后输入你想克隆出来说的内容,点击运行就可以了。手动填写参考文字这一步稍微麻烦,不过后面有更省事的方法。
工作流用法:工作流结构比较简单。先加载参考音频,有个节点负责两件事:一是去除音频中的杂音,只保留人声;二是对音频进行裁剪,留几秒就够,我这里保留了10秒。处理完之后接入千问三声音克隆节点的参考音频输入,再把参考文本和想克隆的内容分别连入对应位置,点击运行。
来听一下生成效果,再和原声对比——克隆效果还是相当不错的。
总结一下这个工作流的三要素:参考音频 + 参考音频对应文本 + 想克隆的内容,三样备齐就能跑。
图片

工作流二:视频提取声音克隆(无需手动输入参考文本)

用AI应用打开,这个工作流上传的是视频,直接从视频中提取声音进行克隆。最大的亮点是不需要手动输入参考文本,省了不少麻烦,只需要上传视频和输入想克隆的内容,步骤简洁了很多。
看一下工作流结构:加载视频节点通过音频输出管道获取声音,去噪和裁剪之后,多了一个自动转写节点,可以把参考音频自动转换成文字,完全省去手动输入这步。
听一下参考音频,再听生成音频——相似度非常高。
总结:这个工作流只需要参考视频 + 想克隆的文字内容,操作很简单。

工作流三:音频输入克隆(可切换视频模式)

打开AI应用,这个工作流和上一个有所区别,它是通过上传参考音频加上想克隆的文字来操作的,也很简单直接。
看工作流结构会发现,视频节点其实是断开的,只要把它连上,同样可以改成视频方式来克隆声音,相当于两种模式都支持,看自己需要。
这个工作流同样支持自动将参考音频转换成文字,不用人工输入。
听一下生成效果,再和原声对比——满意吧。

补充知识点:怎么控制语速

最后说个实用的小细节。工作流里有个语速参数,可以直接控制说话速度,但调节之后音色可能会有些变化,听起来不自然。
更推荐的方式是把文本手动分段,通过增加段落间停顿来人为控制节奏。同样的文字,分段之后生成的音频时长明显变长了,因为停顿增加了,语速自然也慢下来,而且音色完全不受影响。

觉得有用的话点个赞支持一下~

END

感谢您的阅读,麻烦点个赞+在看吧!

没有评论:

发表评论

Grok 4。20 多智能体AI系统解析:2026年3月Beta版功能、价格与使用指南

本文解析xAI于2026年3月发布的Grok 4.20 Beta版核心功能,包括4智能体协作系统、Grok Imagine 1.0图像视频生成、付费Heavy模式扩展至16智能体、API开放情况及免费与付费用户权限差异,适合开发者、创作者及寻求高效AI工具的用户参考。 Tags:...