又找到一款零样本的TTS工具:
MaskGCT,
能15秒克隆音色,
还把视频翻译+音色克隆也做了。
目前属于公测阶段,免费能嫖,在线能用。
还是以星爷为例子,
我输入一段它的音频和文本让它零样本产生音频:
转录TTS内容
轻松将文本内容转换成专业级音频,不仅能完美复制目标声音的声学特征,还能保持丰富的情感和韵律。
结果:
然后目前还有视频翻译功能:
上传一个付航talkshow的原视频:
翻译后:
视频翻译完之后能够编辑修改翻译后的内容:
1. 对应的翻译效果进行编辑
2. 系统会推荐最佳的字数,方便后续口型和时长的匹配
3. 对翻译后的效果进行试听(克隆音色)
4. 时间戳和说话人的显示
目前口型同步功能尚未放出,
想要更多DIY效果的可以自己布署项目:
https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
https://voice.funnycp.com/audioTrans
AI精选开源项目(日更)
AI资讯日报(日更)
90篇AI产品增长策略和案例
AI技巧分享和杀手级应用追踪
70个AI变现案例合集
付费的AI课程网盘资源
内容如上,至于价格一年就几杯咖啡钱。
没有评论:
发表评论