AI I024: Fish Audio S2开源TTS：多说话人+指令跟随，登顶HuggingFace热榜

2026年3月17日星期二

Fish Audio S2开源TTS：多说话人+指令跟随，登顶HuggingFace热榜

Fish Audio S2是开源语音合成系统，支持多说话人切换、多轮对话和自然语言指令控制情感韵律，生产级流式推理首音频<100ms，RTF仅0.195，已登顶HuggingFace热门榜单。适合开发者、AI研究者集成或实验。

Tags:

TTS

语音合成

多说话人

指令跟随

HuggingFace

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

一句话总结：输入文本+自然语言情感指令 → 输出带细粒度韵律/情感控制的逼真语音，Fish Audio S2 用双自回归架构+强化学习对齐，在开源模型中首次实现生产级流式推理（首音频<100ms）。

语音合成（TTS）技术发展多年，但开源方案始终面临几个核心痛点：

情感表达单一，难以实现「小声嘀咕」「开心大笑」等细粒度控制
多说话人切换麻烦，每次换角色都要重新加载参考音频
推理延迟高，流式交互场景体验割裂
开源模型质量与闭源商业系统差距明显

能不能让开源TTS既「会演戏」又「跑得快」？今天给大家介绍的由Fish Audio开源的Fish Audio S2是目前综合能力最强的开源语音合成系统：支持自然语言指令控制情感韵律、原生多说话人/多轮对话、生产级流式推理，在多项基准测试中超越闭源方案。目前已经冲到了HuggingFace的热门榜单Top1!

unsetunset相关链接unsetunset

论文：https://arxiv.org/pdf/2603.08823
源码：https://github.com/fishaudio/fish-speech
试用：https://fish.audio/zh-CN/app
模型：https://huggingface.co/fishaudio/s2-pro

unsetunset论文介绍unsetunset

Fish Audio S2是一款开源的文本转语音系统，支持多说话人、多轮语音生成，最重要的是，它可以通过自然语言描述实现指令跟随控制。为了扩展训练规模，作者开发了一套多阶段训练方案以及分阶段数据管道，涵盖视频字幕和语音字幕、语音质量评估以及奖励建模。为了推动开源文本转语音技术的发展，作者已经发布了模型权重、微调代码以及基于 SGLang 的推理引擎。该推理引擎已达到生产级流处理水平，RTF 值为 0.195，首音频播放时间低于 100 毫秒。

unsetunset方法概述unsetunset

Fish Audio S2 核心架构：

双自回归架构（Dual-Autoregressive） S2 基于仅解码器 Transformer，并结合 RVQ 音频编解码器（10 个码本，约 21 Hz 帧率）。Dual-AR 架构将生成拆分为两个阶段：

Slow AR 沿时间轴运行，预测主语义码本。
Fast AR 在每个时间步生成剩余 9 个残差码本，用于重建细粒度声学细节。

这种非对称设计（时间轴 4B 参数、深度轴 400M 参数）在保持音频保真度的同时，提高了推理效率。

强化学习对齐 S2 使用 Group Relative Policy Optimization（GRPO）进行后训练对齐。用于过滤和标注训练数据的同一批模型被直接复用为 RL 的奖励模型，从而避免了预训练数据分布与后训练目标之间的不匹配。奖励信号综合了语义准确性、指令遵循、声学偏好评分与音色相似度。
基于 SGLang 的生产级流式推理由于 Dual-AR 架构在结构上与标准自回归 LLM 同构，S2 可以直接继承 SGLang 提供的 LLM 原生服务优化能力，包括连续批处理、分页 KV Cache、CUDA Graph Replay 与基于 RadixAttention 的前缀缓存。