Dots.TTS是一款2B参数的开源端到端自回归文本转语音系统,采用完全连续架构,无需离散语音Token,可生成48kHz高保真音频。支持语音克隆、情绪表达、多语言生成,适用于数字人配音、有声书制作等场景。配置要求:Windows 10/11 64位,16G以上内存,12G以上显存NVIDIA显卡,CUDA≥12.8。整合包通过公众号后台回复关键字获取,解压时需使用WinRAR并避免中文路径。
Tags:
Dots.TTS 是一款 20 亿参数(2B)的端到端自回归文本转语音系统(TTS),采用完全连续(Fully Continuous)架构设计,在整个生成流程中不使用任何离散语音 Token。模型结合语义编码器、大语言模型(LLM)以及基于 Flow Matching 的声学生成头,可直接生成高质量 48kHz 音频,在语音自然度、情感表达与语音克隆方面达到开源 SOTA 水平。
相比传统基于离散 Token 的 TTS 系统,dots.tts 能更细腻地建模语音连续特征,从而提升语音稳定性、说话人相似度以及情绪表达能力。
整合包获取方式:
在公众号后台回复关键字【Dots.TTS】获取整合包
软件功能:
• 高清合成:可将文本直接生成自然流畅的 48kHz 高保真语音,适合高质量音频制作。
• 语音克隆:支持根据参考音频还原说话人音色,生成相似度较高的拟真语音。
• 情绪表达:能更细腻地呈现语气、节奏和情感变化,让合成语音更自然生动。
• 多语生成:支持中英文及多语言语音生成,适合跨语言内容和语音应用开发。
• 稳定输出:端到端连续生成减少卡顿、断句和语音崩坏,提升长文本合成稳定性。
应用场景:
• 数字人配音:可为 AI 数字人、虚拟主播和智能形象生成自然拟真的角色语音。
• 内容制作:适用于有声书、播客、短视频旁白等批量语音内容的快速生产。
• 游戏影视:可为游戏角色、影视片段和互动剧情生成带有情绪表现的配音。
• 语音助手:适合构建多语言 AI 助手、客服机器人和智能终端语音交互系统。
• 克隆系统:可用于搭建高拟真语音克隆与个性化音色定制类应用。
配置要求:
电脑需满足以下配置:
• 操作系统:Windows 10/11 64位 • 内存:建议16G以上 • 显卡:至少12G及以上显存的英伟达(NVIDIA)显卡 • CUDA:显卡支持的CUDA版本大于等于12.8版本 • 整个包解压完约20.9G,要留足硬盘空间
如何查看显卡品牌型号和显存
• 打开任务管理器 • 点击“性能” • 点击“GPU” • 右上角可以看到显卡型号,下方可以看到显存大小
使用教程:
① 下载整合包之后解压,建议使用winrar解压(解压软件在文件包中,或者可以自己搜索下载安装)
不要用Windows自带解压!!不要用360解压!!
注意:文件夹路径和文件名称(包括音频、图片、视频等文件名称)不要出现中文字符,否则部分软件会因识别不出而报错
② 双击“一键启动.bat”,稍等片刻会在浏览器中自动打开操作界面
③ 添加参考音频,输入参考音频对应的文本,再输入需要合成的文本,最后点击“开始合成”即可
④ 生成结果位于下方,可以播放试听,点击下载按钮可以保存至指定文件夹
⑤ 在文件包中的“outputs”文件夹中也能找到生成结果
在公众号后台回复关键字【Dots.TTS】获取整合包
没有评论:
发表评论