AI I024: MaskGCT，免费的视频音色克隆+翻译工具

2024年10月30日星期三

又找到一款零样本的TTS工具：

MaskGCT，

能15秒克隆音色，

还把视频翻译+音色克隆也做了。

目前属于公测阶段，免费能嫖，在线能用。

还是以星爷为例子，

我输入一段它的音频和文本让它零样本产生音频：

转录TTS内容

轻松将文本内容转换成专业级音频，不仅能完美复制目标声音的声学特征，还能保持丰富的情感和韵律。

结果：

然后目前还有视频翻译功能：

上传一个付航talkshow的原视频：

翻译后：

视频翻译完之后能够编辑修改翻译后的内容：

1. 对应的翻译效果进行编辑

2. 系统会推荐最佳的字数，方便后续口型和时长的匹配

3. 对翻译后的效果进行试听（克隆音色）

4. 时间戳和说话人的显示

目前口型同步功能尚未放出，

想要更多DIY效果的可以自己布署项目：

https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

https://voice.funnycp.com/audioTrans

最后讲讲我自己运营的一个知识群今天上线了。

内容如上，至于价格一年就几杯咖啡钱。