Fish Audio S2是开源语音合成系统,支持多说话人切换、多轮对话和自然语言指令控制情感韵律,生产级流式推理首音频<100ms,RTF仅0.195,已登顶HuggingFace热门榜单。适合开发者、AI研究者集成或实验。
Tags:
一句话总结:输入文本+自然语言情感指令 → 输出带细粒度韵律/情感控制的逼真语音,Fish Audio S2 用双自回归架构+强化学习对齐,在开源模型中首次实现生产级流式推理(首音频<100ms)。
语音合成(TTS)技术发展多年,但开源方案始终面临几个核心痛点:
情感表达单一,难以实现「小声嘀咕」「开心大笑」等细粒度控制 多说话人切换麻烦,每次换角色都要重新加载参考音频 推理延迟高,流式交互场景体验割裂 开源模型质量与闭源商业系统差距明显
能不能让开源TTS既「会演戏」又「跑得快」? 今天给大家介绍的由Fish Audio开源的Fish Audio S2是目前综合能力最强的开源语音合成系统:支持自然语言指令控制情感韵律、原生多说话人/多轮对话、生产级流式推理,在多项基准测试中超越闭源方案。目前已经冲到了HuggingFace的热门榜单Top1!
相关链接
论文:https://arxiv.org/pdf/2603.08823 源码:https://github.com/fishaudio/fish-speech 试用:https://fish.audio/zh-CN/app 模型:https://huggingface.co/fishaudio/s2-pro
论文介绍
Fish Audio S2是一款开源的文本转语音系统,支持多说话人、多轮语音生成,最重要的是,它可以通过自然语言描述实现指令跟随控制。为了扩展训练规模,作者开发了一套多阶段训练方案以及分阶段数据管道, 涵盖视频字幕和语音字幕、语音质量评估以及奖励建模。为了推动开源文本转语音技术的发展,作者已经发布了模型权重、微调代码以及基于 SGLang 的推理引擎。该推理引擎已达到生产级流处理水平,RTF 值 为 0.195,首音频播放时间低于 100 毫秒。
方法概述
Fish Audio S2 核心架构:
双自回归架构(Dual-Autoregressive) S2 基于仅解码器 Transformer,并结合 RVQ 音频编解码器(10 个码本,约 21 Hz 帧率)。Dual-AR 架构将生成拆分为两个阶段:
Slow AR 沿时间轴运行,预测主语义码本。 Fast AR 在每个时间步生成剩余 9 个残差码本,用于重建细粒度声学细节。
这种非对称设计(时间轴 4B 参数、深度轴 400M 参数)在保持音频保真度的同时,提高了推理效率。
强化学习对齐 S2 使用 Group Relative Policy Optimization(GRPO)进行后训练对齐。用于过滤和标注训练数据的同一批模型被直接复用为 RL 的奖励模型,从而避免了预训练数据分布与后训练目标之间的不匹配。奖励信号综合了语义准确性、指令遵循、声学偏好评分与音色相似度。
基于 SGLang 的生产级流式推理 由于 Dual-AR 架构在结构上与标准自回归 LLM 同构,S2 可以直接继承 SGLang 提供的 LLM 原生服务优化能力,包括连续批处理、分页 KV Cache、CUDA Graph Replay 与基于 RadixAttention 的前缀缓存。
部署参数
在单张 NVIDIA H200 GPU 上:
实时因子(RTF): 0.195 首音频延迟: 约 100 ms 吞吐: 在 RTF 低于 0.5 的情况下达到 3,000+ acoustic tokens/s
多语言支持
Fish Audio S2 支持高质量的多语言文本转语音,无需音素或特定语言的预处理。包括:英语、中文、日语、韩语、阿拉伯语、德语、法语...
实验结果
结论
Fish Audio S2 是当前最强的开源文本转语音系统,支持用自然语言指令(如"[小声][大笑]")实现细粒度情感控制,原生胜任长篇合成、多角色对话等复杂场景。其三大创新:
Dual-AR 架构解耦语义与声学建模,兼顾质量与效率; 双用途数据管道+强化学习奖励,消除训练分布偏移; 多维RL后训练,联合优化可懂度、自然度与音色相似度。
实测 RTF 仅 0.195、首音频<100ms,达到生产级流式推理标准。模型权重、微调代码及 SGLang 推理引擎已全面开源,为可控语音合成研究提供开放基座。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论