2026年3月17日星期二

Fish Audio S2开源TTS:多说话人+指令跟随,登顶HuggingFace热榜

Fish Audio S2是开源语音合成系统,支持多说话人切换、多轮对话和自然语言指令控制情感韵律,生产级流式推理首音频<100ms,RTF仅0.195,已登顶HuggingFace热门榜单。适合开发者、AI研究者集成或实验。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

一句话总结:输入文本+自然语言情感指令 → 输出带细粒度韵律/情感控制的逼真语音,Fish Audio S2 用双自回归架构+强化学习对齐,在开源模型中首次实现生产级流式推理(首音频<100ms)。

语音合成(TTS)技术发展多年,但开源方案始终面临几个核心痛点:

  • 情感表达单一,难以实现「小声嘀咕」「开心大笑」等细粒度控制
  • 多说话人切换麻烦,每次换角色都要重新加载参考音频
  • 推理延迟高,流式交互场景体验割裂
  • 开源模型质量与闭源商业系统差距明显

能不能让开源TTS既「会演戏」又「跑得快」? 今天给大家介绍的由Fish Audio开源的Fish Audio S2是目前综合能力最强的开源语音合成系统:支持自然语言指令控制情感韵律、原生多说话人/多轮对话、生产级流式推理,在多项基准测试中超越闭源方案。目前已经冲到了HuggingFace的热门榜单Top1!图片

图片
图片

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2603.08823
  • 源码:https://github.com/fishaudio/fish-speech
  • 试用:https://fish.audio/zh-CN/app
  • 模型:https://huggingface.co/fishaudio/s2-pro

unsetunset论文介绍unsetunset

图片

Fish Audio S2是一款开源的文本转语音系统,支持多说话人、多轮语音生成,最重要的是,它可以通过自然语言描述实现指令跟随控制。为了扩展训练规模,作者开发了一套多阶段训练方案以及分阶段数据管道, 涵盖视频字幕和语音字幕、语音质量评估以及奖励建模。为了推动开源文本转语音技术的发展,作者已经发布了模型权重、微调代码以及基于 SGLang 的推理引擎。该推理引擎已达到生产级流处理水平,RTF 值 为 0.195,首音频播放时间低于 100 毫秒。

unsetunset方法概述unsetunset

图片Fish Audio S2 核心架构:

  1. 双自回归架构(Dual-Autoregressive) S2 基于仅解码器 Transformer,并结合 RVQ 音频编解码器(10 个码本,约 21 Hz 帧率)。Dual-AR 架构将生成拆分为两个阶段:
  • Slow AR 沿时间轴运行,预测主语义码本。
  • Fast AR 在每个时间步生成剩余 9 个残差码本,用于重建细粒度声学细节。

这种非对称设计(时间轴 4B 参数、深度轴 400M 参数)在保持音频保真度的同时,提高了推理效率。

  1. 强化学习对齐 S2 使用 Group Relative Policy Optimization(GRPO)进行后训练对齐。用于过滤和标注训练数据的同一批模型被直接复用为 RL 的奖励模型,从而避免了预训练数据分布与后训练目标之间的不匹配。奖励信号综合了语义准确性、指令遵循、声学偏好评分与音色相似度。

  2. 基于 SGLang 的生产级流式推理 由于 Dual-AR 架构在结构上与标准自回归 LLM 同构,S2 可以直接继承 SGLang 提供的 LLM 原生服务优化能力,包括连续批处理、分页 KV Cache、CUDA Graph Replay 与基于 RadixAttention 的前缀缓存。

部署参数

在单张 NVIDIA H200 GPU 上:

  • 实时因子(RTF): 0.195
  • 首音频延迟: 约 100 ms
  • 吞吐: 在 RTF 低于 0.5 的情况下达到 3,000+ acoustic tokens/s

多语言支持

Fish Audio S2 支持高质量的多语言文本转语音,无需音素或特定语言的预处理。包括:英语、中文、日语、韩语、阿拉伯语、德语、法语...

unsetunset实验结果unsetunset

图片
图片
图片
图片
图片
图片

unsetunset结论unsetunset

Fish Audio S2 是当前最强的开源文本转语音系统,支持用自然语言指令(如"[小声][大笑]")实现细粒度情感控制,原生胜任长篇合成、多角色对话等复杂场景。其三大创新:

  1. Dual-AR 架构解耦语义与声学建模,兼顾质量与效率;
  2. 双用途数据管道+强化学习奖励,消除训练分布偏移;
  3. 多维RL后训练,联合优化可懂度、自然度与音色相似度。

实测 RTF 仅 0.195、首音频<100ms,达到生产级流式推理标准。模型权重、微调代码及 SGLang 推理引擎已全面开源,为可控语音合成研究提供开放基座。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

seedance2。0真人图片一键过审

Tags: