AI I024: 用GPT-SoVITS克隆你的声音，制作你的数字人

2025年4月14日星期一

用GPT-SoVITS克隆你的声音，制作你的数字人

用GPT-SoVITS可以完美克隆你的声音，用来制作自己的数字人是相当不错的选择。

以下是分享的使用方法：

一、启动软件

在本地部署完成GPT-SoVITS后，双击运行go-webui.bat批处理文件

下面是软件的是启运界面

GPT-SoVITS最大的特点是少量音频素材也可以获得不错的效果

训练素材一两分钟的音频就可以，如果音频更长一些会更好

录音最好选择WAV格式，这样录制的音频效果更好

二、去除杂音

如果要克隆的声音有背景噪音，需要先对声音进行背景音处理

1、启动背景音处理

勾选URV5-WebUI，稍等一会会弹出一个窗口

2、选择模型

将需要处理背景噪音的音频拖到窗口，然后根据说明选择模型，再点击"转换"进行处理

三、克隆开始

1、第一步，切割音频

我们需要设置好原音频所在目录和音频切割后保存的目录，然后点"开始语音切割"。

为了方便管理，可以为该音频新建一个项目文件夹，切割文件夹也设置在该项目文件夹里面，注意路径不要有中文。

切割一般很快就会完成，下面是切割后的音频文件

切割后的音频文件需要手动检查一下，一般5秒左右，如果有超过20秒的，清空切割文件，重新切割

2、对音频打标

打标就是把切割后的音频对应的文本内容整理出来

我们需要把切割后的音频路径粘贴进来，然后点击"开始离线批量ARR"

出现下面这个提示，表示打标完成

这个slicer_opt.list就是打标文件

3、打标校正

首先把list文件的路径粘进来，再然后勾选"是否开启打标WebUI"

秒等几秒钟，会打开一个新页面，我们需要一边听右边的音频，一边校对左面的文案，如果有文案错误以及停顿不合适的地方，需要手动进行修改。

例如本该停顿的地方文案里没有停顿，需要手动在需要停顿的文案处加个逗号。

打标结束后一定要先点击提交结果（Submit Text），然后再点击切换到下一页，不然就白校对了

打标文件的合并和删除
删除：对于特别短的打标音频可以先勾选后面的"yes"后，点击"Delete Audio"，再点击"Save File"

合并：对想要合并的音频，先勾选想要合并的两个音频后面的"yes"，再点击"Merge Audio"，再点击"Save File"

特别注意：在操作删除和合并前，一定要先点击"Submit Text"提交结果

退出打标页面：

全部校对完毕后，关闭页面，并取消勾选"是否开启打标WebUI"

此时建议将 list 文件复制一份到项目文件夹，以防文件丢失

4、开始训练

切换到GPT-SoVITS-TTS页面，先随便给模型起个名字，粘贴list文件路径和切割文件路径，最后点"一键三连"进行训练

看到下面的提示，说明训练结束

5、微调训练

分别点击"开启SoVITS训练"和开启"GPT训练"进行微调训练

如果出现报错，可以尝试调低左侧的"batch_size"重新训练

这两个模型训练结束后，就可以到"1C-推理"页面进行使用了

四、"1C-推理"使用克隆模型

1、刷新模型列表

首先刷新一下模型列表，模型名字后面的e5、e10、e15，分别代表训练了5轮、10轮、15轮

S40、S80代表训练了多少步数

一般来说并不是数值越高就越好，但我们通常先选择数值最高的那两个

2、选择模型

选择数值最高的那两个模型，然后开启推理页面

五、开始生成语音

生成语音可以分为以下步骤：

1、选择好我们训练出来的两个模型

2、上传一段不超过5秒的参考音频，可以从切割出来的音频里选

3、填入参考音频的文本

4、填入想要生成声音的文本

生成语音后点右上角的三个点保存音频

注意：

1、生成音频的随机性

即使是相同的模型参数，每次生成的音频也会有差别，所以你可以多合成几次进行抽卡

2、如何生成音频的情绪

如果你想生成带有情绪的音频，比如喜悦的音频，你上传的参考音频也要是带有喜悦情绪的音频

3、如何生成长文本音频

如果你想要对长文本进行音频合成，可以选择底部的切分方式，先对文本进行切分，然后再把切分后的文本粘贴回去。

其实就是对文本进行分行处理，你也可以手动对长文本进行分行后再合成。

最后

上传参考音频时注意要根据参考音频的语言选择正确的语言

另外，即使我们使用中文语言训练出来的模型，也可以用来合成其他语种的音频

END

感谢您的阅读，麻烦点个赞+在看吧！

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2025年4月14日星期一

用GPT-SoVITS克隆你的声音，制作你的数字人

没有评论:

发表评论

免费大模型 API全景指南：20+平台白嫖攻略，从注册到上手

标签