2026年6月8日星期一

开源文本转语音系统Dots。TTS 语音克隆情绪表达 48kHz高保真

Dots.TTS是一款2B参数的开源端到端自回归文本转语音系统,采用完全连续架构,无需离散语音Token,可生成48kHz高保真音频。支持语音克隆、情绪表达、多语言生成,适用于数字人配音、有声书制作等场景。配置要求:Windows 10/11 64位,16G以上内存,12G以上显存NVIDIA显卡,CUDA≥12.8。整合包通过公众号后台回复关键字获取,解压时需使用WinRAR并避免中文路径。

Tags:

图片

Dots.TTS 是一款 20 亿参数(2B)的端到端自回归文本转语音系统(TTS),采用完全连续(Fully Continuous)架构设计,在整个生成流程中不使用任何离散语音 Token。模型结合语义编码器、大语言模型(LLM)以及基于 Flow Matching 的声学生成头,可直接生成高质量 48kHz 音频,在语音自然度、情感表达与语音克隆方面达到开源 SOTA 水平。

相比传统基于离散 Token 的 TTS 系统,dots.tts 能更细腻地建模语音连续特征,从而提升语音稳定性、说话人相似度以及情绪表达能力。

整合包获取方式:

在公众号后台回复关键字Dots.TTS获取整合包

软件功能:

• 高清合成:可将文本直接生成自然流畅的 48kHz 高保真语音,适合高质量音频制作。

• 语音克隆:支持根据参考音频还原说话人音色,生成相似度较高的拟真语音。

• 情绪表达:能更细腻地呈现语气、节奏和情感变化,让合成语音更自然生动。

• 多语生成:支持中英文及多语言语音生成,适合跨语言内容和语音应用开发。

• 稳定输出:端到端连续生成减少卡顿、断句和语音崩坏,提升长文本合成稳定性。

应用场景:

• 数字人配音:可为 AI 数字人、虚拟主播和智能形象生成自然拟真的角色语音。

• 内容制作:适用于有声书、播客、短视频旁白等批量语音内容的快速生产。

• 游戏影视:可为游戏角色、影视片段和互动剧情生成带有情绪表现的配音。

• 语音助手:适合构建多语言 AI 助手、客服机器人和智能终端语音交互系统。

• 克隆系统:可用于搭建高拟真语音克隆与个性化音色定制类应用。

配置要求:

电脑需满足以下配置:

  • • 操作系统:Windows 10/11 64位
  • • 内存:建议16G以上
  • • 显卡:至少12G及以上显存的英伟达(NVIDIA)显卡
  • • CUDA:显卡支持的CUDA版本大于等于12.8版本 
  • • 整个包解压完约20.9G,要留足硬盘空间

如何查看显卡品牌型号和显存

  • • 打开任务管理器
  • • 点击“性能”
  • • 点击“GPU”
  • • 右上角可以看到显卡型号,下方可以看到显存大小
图片

使用教程:

① 下载整合包之后解压,建议使用winrar解压(解压软件在文件包中,或者可以自己搜索下载安装)

不要用Windows自带解压!!不要用360解压!!

图片

注意:文件夹路径和文件名称(包括音频、图片、视频等文件名称)不要出现中文字符,否则部分软件会因识别不出而报错

图片

② 双击“一键启动.bat”,稍等片刻会在浏览器中自动打开操作界面

图片

③ 添加参考音频,输入参考音频对应的文本,再输入需要合成的文本,最后点击“开始合成”即可

图片

④ 生成结果位于下方,可以播放试听,点击下载按钮可以保存至指定文件夹

图片

⑤ 在文件包中的“outputs”文件夹中也能找到生成结果

图片

在公众号后台回复关键字Dots.TTS获取整合包

以上就是本期分享的内容
后期持续分享 AI 应用、AI 落地项目及实用工具

没有评论:

发表评论

Claude Fable 5正式发布 免费使用至6月22日 附价格与能力测评

Anthropic正式发布Claude Fable 5模型,与Mythos 5同源但增加安全限制。即日起至6月22日,Pro/Max等订阅用户可免费使用,之后将移除订阅方案仅限API调用。模型每百万输入10美元、输出50美元,能力全面超越Opus 4.8,适合开发者、AI爱好者及...