2024年12月26日星期四

3秒克隆声音CosyVoice2。0版本,可以说方言、支持情绪控制等,工具已打包好,一键启动即可

公众号:AI应用帮

 文中提供获取方式 

本期带来可以说方言、支持情绪控制的声音克隆工具整合包 —— CosyVoice-2.0

只需3~10秒的原始音频,即可生成克隆音色,实现不同语言之间的语音合成,中文、英文、日语、韩语、中国方言(粤语、四川话、上海话、天津话、武汉话、长沙话、郑州话等),还支持生成具有多种情感表达的语音,包括快乐、兴奋、悲伤、愤怒等,还能通过指令控制说话的语气、情绪等

开源地址:https://github.com/FunAudioLLM/CosyVoice

官方参考示例:https://funaudiollm.github.io/cosyvoice2/
# 一键启动整合包下载地址及教程:
https://aiyy.info/cosyvoice/

# 配置要求:

电脑需满足以下配置:

  • 操作系统:Windows 10/11 64位

  • 显卡至少8G显存的英伟达(NVIDIA)显卡
  • CUDA >= 12.1

  • 整个包解压之后约22.5G,留足硬盘空间
    电脑如未安装CUDA可以查看安装教程:https://aiyy.info/requirements/
 如何查看显卡品牌型号和显存:
  • 打开任务管理器
  • 点击"性能"
  • 点击"GPU"
  • 右上角可以看到显卡型号,下方可以看到显存大小
 # 使用教程:

① 打开下载页面(https://aiyy.info/cosyvoice/)点击页面右侧下载按钮,下载整合包之后解压,建议使用winrar解压(解压软件在文件包中,或者可以自己下载安装,下载地址:https://www.winrar.com.cn/)

不要用Windows自带解压!!不要用360解压!!

注意:文件夹路径文件名称(包括视频、图片、音频等文件名称)不要出现中文字符,否则部分软件会因识别不出而报错

② 双击"一键启动.exe",稍等片刻会在浏览器中自动打开操作界面
3秒复刻音色并生成音频:输入文本,选择"3s声音克隆",放入参考音频(时长3秒-30秒,要求为干音,音频无杂音,无背景音),程序会自动识别参考音频文本,如果识别不准确,可以手动修改,点击"生成语音",生成结果位于底部,可以播放试听,也可以点击右上角下载按钮保存到指定文件夹
指令语音生成:输入文本,程序会自动识别参考音频文本,如果识别不准确,可以手动修改,输入语音风格指令(如情绪、语气、语种等),点击"生成语音",生成结果位于底部,可以播放试听,也可以点击右上角下载按钮保存到指定文件夹
各种语种及方言,支持中文、英文、日语、韩语、中国方言(粤语、四川话、上海话、天津话、长沙话、郑州话等)
说话语气、情绪控制,如Happy(开心)、Sad(悲伤)、Surprise(惊喜)、Neutral(自然)、Angry(生气)等
另外还支持角色扮演控制、说话情境控制等,可参考下方网址中的示例
https://funaudiollm.github.io/cosyvoice2/
以上就是本期分享的内容,所需工具在下方网址中👇👇👇可以自取👇👇👇
后期持续分享AI应用、AI落地项目及实用工具

      更多AI软件获取方式     

👇👇👇👇👇👇👇👇👇👇👇👇👇👇👇👇
aiyy.info
(浏览器地址栏中输入上方网址,或点击左下角【阅读原文】可直接跳转)

关注下方公众号

及时获取更多资讯

菜单栏可见Ai应用集合

--------收集不易先点 在看 后 领取--------
版权声明:本公众号尊重原创。所获取资源,皆由本公众号在网络上收集整理,仅供交流学习用,禁止商用,版权属于原作者。若因为种种原因,未能与原作者联系的,若涉及版权问题,敬请原作者联系我们,本公众号立即撤下资源并进行相应处理。

👇 点击下方【阅读原文】可直接进入

没有评论:

发表评论

谷歌Veo 3:AI生成视频还能带音效?太炸裂了!

谷歌Veo 3:一句生成,视频无忧,创意轻松流! 谷歌最近发布了一大堆东西,类似肯德基全家桶吧,你可以把它看做谷歌AI全家桶,因为一直比较关注AI视频方面的内容,今天就来讲讲 谷歌刚刚发布的Veo3 ,它能让你只用一句话,生成一段带画面、配音、音效的完整视频!而且效果惊人,连...