2026年3月30日星期一

Voxtral TTS:4B参数SOTA多语言语音生成,API低至0。016美元/千字符

Voxtral TTS是Mistral推出的多语言文本转语音模型,仅4B参数即达SOTA性能。支持英语、法语等9种语言,极低延迟,输出24kHz音频。现通过API提供服务,价格每1000字符0.016美元,适用于企业级语音代理、实时交互等场景。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

What is Voxtral: Mistral's open source AI audio model, key features  explained

Voxtral TTS是首个在多语言语音生成方面拥有顶尖性能的文本转语音模型。基于大型语音数据集进行训练,专为全球应用而构建。它支持 9 种语言,性能一流:英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。该模型参数量极小,仅有 40 亿个参数,使得基于 Voxtral 的语音助手能够大规模地实现自然、可靠且经济高效的语音效果。Voxtral TTS 现已可通过 API 提供,价格为每 1000 个字符 0.016 美元。目前已经冲到了HuggingFace热门榜单Top2!

图片
图片

主要特点

Voxtral TTS 为生产型语音代理提供企业级文本转语音功能,具备以下功能:

  • 支持9种主要语言的逼真、富有表现力的语音,具有自然的韵律和情感表达,并支持多种方言。
  • 具备文本转语音功能,预设20种语音,并可轻松适应新语音
  • 支持多种语言:英语、法语、西班牙语、德语、意大利语、葡萄牙语、荷兰语、阿拉伯语和印地语
  • 极低延迟,快速响应音频,并支持流式传输和批量推理。
  • 支持24 kHz 音频输出,格式包括 WAV、PCM、FLAC、MP3、AAC 和 Opus。
  • 适用于高吞吐量、实时语音代理工作流程的生产就绪性能

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2603.25551
  • 主页:https://mistral.ai/news/voxtral-tts
  • 模型:https://huggingface.co/mistralai/Voxtral-4B-TTS-2603
  • 试用:https://huggingface.co/spaces/mistralai/voxtral-tts-demo图片

unsetunset论文介绍unsetunset

图片

自然语音生成的关键在于模型不仅能够朗读文本,还能准确理解文本。对语境的理解——例如中性、快乐、讽刺等——决定了听者对生成的语音是觉得准确还是生硬。

Voxtral TTS在语境理解和说话人建模方面都表现出色:能够捕捉特定人物自然说话的方式。我们的语音自适应技术超越了传统的朗读语音,能够捕捉说话者的个性,包括其自然的停顿、节奏、语调和情感表达。凭借其体积小巧、成本低、延迟低以及易于定制等优势,Voxtral TTS 为希望拥有自身语音 AI 技术栈的企业提供了全面的控制和定制选项。

unsetunset方法概述unsetunset

图片Voxtral TTS架构。该模型是一个基于Transformer的自回归流匹配模型,构建于 Ministral 3B之上。它由以下组件构成:

  • 3.4B 参数转换器解码器主干网
  • 390M 流量匹配声学变压器
  • 3亿神经音频编解码器(对称编码器-解码器)

该模型接收一段语音提示(5 至 25 秒)和一段支持 9 种语言的文本提示。对于每个音频帧,Transformer 主干网络预测一个语义标记,然后流匹配 Transformer 运行 16 次函数评估 (NFE) 以生成声学潜在词元。

团队开发了一种内部编解码器,它使用语义 VQ(8192 个词汇表)和声学 FSQ(36 个暗度和 21 个级别)潜在信息对音频进行因果处理,并以 12.5Hz 帧速率生成音频。

图片

Voxtral 编解码器的架构概述和训练过程。它由语义 VQ 码本和声学 FSQ 码本组成。语义和声学标记被结合起来进行重建。语义标记还包含来自监督式自动语音识别 (ASR) 模型的额外蒸馏损失。图片

unsetunset实验unsetunset

一流的性能

图片

对于多语言文本转语音系统而言,诸如词错误率和音频质量评分等自动化指标无法衡量语音的自然度。语音的自然程度极其微妙,需要对文化差异和典型说话模式有深刻的理解。因此,由母语人士进行的对比评估至关重要。

对于语音代理而言,延迟和质量始终处于矛盾之中。人工评估表明,Voxtral TTS 在保持与 ElevenLabs Flash v2.5 相近的首次音频播放时间 (TTFA) 的同时,实现了更自然的语音效果。Voxtral 的性能也与 ElevenLabs v3 不相上下,并成功支持情感控制,从而实现更逼真的交互体验。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

Voxtral TTS:4B参数SOTA多语言语音生成,API低至0。016美元/千字符

Voxtral TTS是Mistral推出的多语言文本转语音模型,仅4B参数即达SOTA性能。支持英语、法语等9种语言,极低延迟,输出24kHz音频。现通过API提供服务,价格每1000字符0.016美元,适用于企业级语音代理、实时交互等场景。 Tags: 文本转语音 ...