2024年7月3日星期三

30秒完美复刻声音——超70k星标团队的又一个炸裂TTS新作FishAudio


今天发现一个颇有B站风格的ChatTTS。
由RVC-BOSS大佬领衔的团队制作,大佬GPT-SoVITS的开发者,熟悉TTS的都知道GPT-SoVITS许多TTS的基底,在Github上有28k的星标。

我实测过效果非常炸裂!
只需要30秒的语音完美复刻人声,
而且无需调节任何参数,
一键达到难以区分的效果。


目前FishAudio已经有2.8k的星标,
项目在线可使用,可以使用别人的模型,也可以通过一段语音生成自己想要的模型,然后再进行TTS。
能力强的可以用开源的代码进行微调。

来看看项目的一些效果:

纳西妲 (原神),输入训练:


纳西妲 (原神),输出结果:


钟离 (原神),输入训练:


钟离 (原神),输出结果:


我用网友做的模型测试出来的效果

董宇辉:
直播带货我不卖货只卖知识和感情


丁真:
(什么牛马什么鬼神让我一眼丁真)


古美门:
この社会では正義こそが勝利だよ!
(在这个社会胜利即是胜利!)


简单演示下怎么在线制作:
比如我要训练一个刘强东东哥的声音,
首先填写基本的信息:


添加一段东哥30秒左右的音频:



查看效果:
(兄弟们好好干,每人一套房)

效果炸裂,不到一分钟的声音就完美复制了!
感受到FishAudio生成的语音非常逼真和舒服,
足以以假乱真,难以区分。

项目体验地址:
https://fish.audio/zh-CN/text-to-speech/

觉得不错的点个赞和在看,
谢谢阅读。


没有评论:

发表评论

MARIS框架:首个大规模水下开放词汇实例分割基准,性能提升3。30%

中科大等联合提出MARIS框架,构建首个大规模细粒度水下开放词汇实例分割基准数据集,包含1.6万张图像、158个子类。通过几何先验增强与语义对齐注入,域内性能达56.71% mAP,跨域零样本泛化提升5.91%。代码已开源,适用于水下视觉、海洋研究与机器人领域。 Tags: ...