AI I024: 免费声音克隆并生成双人对话的工具整合包MOSS-TTSD，可以克隆两个人的音色，并生成两个人的对话音频，适用于播客、访谈等场景

2025年7月10日星期四

免费声音克隆并生成双人对话的工具整合包MOSS-TTSD，可以克隆两个人的音色，并生成两个人的对话音频，适用于播客、访谈等场景

AI应用帮，帮你用AI

公众号：AI应用帮

「 文中提供获取方式 」

▼

本期带来声音克隆并生成双人对话的工具整合包 —— MOSS-TTSD

MOSS-TTSD（Text to Spoken Dialogue）是由清华大学语音与语言实验室联合 Tencent AI Lab 开发的开源口语对话语音生成模型。它能够将多轮文本对话自然地转化为具备人物风格、情绪表达的中英文对话语音。该模型融合了大规模语音数据与语义-音学神经网络，支持零样本语音克隆与多说话人切换，广泛适用于播客、访谈等富表现力语音生成需求场景。

👇👇👇—— 底部教程有生成结果示例 ——👇👇👇

开源地址：https://github.com/OpenMOSS/MOSS-TTSD

# 一键启动整合包下载地址：

https://aiyy.info/moss-ttsd/

视频教程

# 配置要求：

电脑需满足以下配置：

操作系统：Windows 10/11 64位

内存：16G以上（内存不足可以通过增加虚拟内存方式解决，可自行搜索操作教程）

显卡：要求8G及以上显存的英伟达（NVIDIA）显卡

CUDA ：显卡驱动更新到最新后，支持的CUDA版本大于等于12.8版本（如不知道显卡支持的CUDA版本，可在此链接查看：https://aiyy.info/supported-cuda-versions/）

整个包解压之后约19.9G，留足硬盘空间

# 如何查看显卡品牌型号和显存：

打开任务管理器
点击"性能"
点击"GPU"
右上角可以看到显卡型号，下方可以看到显存大小

# 使用教程：

① 打开下载页面（https://aiyy.info/moss-ttsd/）点击页面右侧下载按钮，下载整合包之后解压，建议使用winrar解压（解压软件在文件包中，或者可以自己下载安装，下载地址：https://www.winrar.com.cn/）

不要用Windows自带解压！！不要用360解压！！

注意：文件夹路径和文件名称（包括视频、图片、音频等文件名称）不要出现中文字符，否则部分软件会因识别不出而报错

② 双击"一键启动.bat"，稍等片刻会在浏览器中自动打开操作界面

③ 选择界面语言为中文，然后输入需要生成的文本（注意，一定要严格按照格式：[S1]后面接角色1文本。[S2]后面接角色2文本。如下方示例所示），然后选择输入模式，Single是上传一个包含两个角色对话的音频，但是建议选择Role分别上传角色1和角色2的音频，然后在下方分别上传角色1和角色2的音频，再在对应音频下方的框中分别输入角色1和角色2的音频对应的文本内容，最后点击"生成音频"。