用GPT-SoVITS可以完美克隆你的声音,用来制作自己的数字人是相当不错的选择。
以下是分享的使用方法:
一、启动软件
在本地部署完成GPT-SoVITS后,双击运行go-webui.bat批处理文件
下面是软件的是启运界面
GPT-SoVITS最大的特点是少量音频素材也可以获得不错的效果
训练素材一两分钟的音频就可以,如果音频更长一些会更好
录音最好选择WAV格式,这样录制的音频效果更好
二、去除杂音
如果要克隆的声音有背景噪音,需要先对声音进行背景音处理
1、启动背景音处理
勾选URV5-WebUI,稍等一会会弹出一个窗口
2、选择模型
将需要处理背景噪音的音频拖到窗口,然后根据说明选择模型,再点击"转换"进行处理
三、克隆开始
1、第一步,切割音频
我们需要设置好原音频所在目录和音频切割后保存的目录,然后点"开始语音切割"。
为了方便管理,可以为该音频新建一个项目文件夹,切割文件夹也设置在该项目文件夹里面,注意路径不要有中文。
切割一般很快就会完成,下面是切割后的音频文件
切割后的音频文件需要手动检查一下,一般5秒左右,如果有超过20秒的,清空切割文件,重新切割
2、对音频打标
打标就是把切割后的音频对应的文本内容整理出来
我们需要把切割后的音频路径粘贴进来,然后点击"开始离线批量ARR"
出现下面这个提示,表示打标完成
这个slicer_opt.list就是打标文件
3、打标校正
首先把list文件的路径粘进来,再然后勾选"是否开启打标WebUI"
秒等几秒钟,会打开一个新页面,我们需要一边听右边的音频,一边校对左面的文案,如果有文案错误以及停顿不合适的地方,需要手动进行修改。
例如本该停顿的地方文案里没有停顿,需要手动在需要停顿的文案处加个逗号。
打标结束后一定要先点击提交结果(Submit Text),然后再点击切换到下一页,不然就白校对了
打标文件的合并和删除
删除:对于特别短的打标音频可以先勾选后面的"yes"后,点击"Delete Audio",再点击"Save File"
合并:对想要合并的音频,先勾选想要合并的两个音频后面的"yes",再点击"Merge Audio",再点击"Save File"
特别注意:在操作删除和合并前,一定要先点击"Submit Text"提交结果
退出打标页面:
全部校对完毕后,关闭页面,并取消勾选"是否开启打标WebUI"
此时建议将 list 文件复制一份到项目文件夹,以防文件丢失
4、开始训练
切换到GPT-SoVITS-TTS页面,先随便给模型起个名字,粘贴list文件路径和切割文件路径,最后点"一键三连"进行训练
看到下面的提示,说明训练结束
5、微调训练
分别点击"开启SoVITS训练"和开启"GPT训练"进行微调训练
如果出现报错,可以尝试调低左侧的"batch_size"重新训练
这两个模型训练结束后,就可以到"1C-推理"页面进行使用了
四、"1C-推理"使用克隆模型
1、刷新模型列表
首先刷新一下模型列表,模型名字后面的e5、e10、e15,分别代表训练了5轮、10轮、15轮
S40、S80代表训练了多少步数
一般来说并不是数值越高就越好,但我们通常先选择数值最高的那两个
2、选择模型
选择数值最高的那两个模型,然后开启推理页面
五、开始生成语音
生成语音可以分为以下步骤:
1、选择好我们训练出来的两个模型
2、上传一段不超过5秒的参考音频,可以从切割出来的音频里选
3、填入参考音频的文本
4、填入想要生成声音的文本
生成语音后点右上角的三个点保存音频
注意:
1、生成音频的随机性
即使是相同的模型参数,每次生成的音频也会有差别,所以你可以多合成几次进行抽卡
2、如何生成音频的情绪
如果你想生成带有情绪的音频,比如喜悦的音频,你上传的参考音频也要是带有喜悦情绪的音频
3、如何生成长文本音频
如果你想要对长文本进行音频合成,可以选择底部的切分方式,先对文本进行切分,然后再把切分后的文本粘贴回去。
其实就是对文本进行分行处理,你也可以手动对长文本进行分行后再合成。
最后
上传参考音频时注意要根据参考音频的语言选择正确的语言
另外,即使我们使用中文语言训练出来的模型,也可以用来合成其他语种的音频
END
感谢您的阅读,麻烦点个赞+在看吧!
没有评论:
发表评论