MiniMax 双榜登顶,全球第一!
最近身边经常传出一种声音:
当我们都在热议这些 DeepSeek、Qwen AI 大模型的时候,大家或多或少都有了各自的首选。
但提到语音大模型,好像还没有一个真正让人眼前一亮的统一答案。
不过,这一局面正在被 MiniMax 打破。
他们推出的 Speech-02 系列语音模型,已经强势登顶语音排行榜 Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 权威榜单的第一名。
在最新的语音模型排行榜中,Speech-02-HD 一举超越此前爆火的 OpenAI、elevenlabs 等语音模型。
或许这正是我们等待已久的那个"领军者"。
这次 Speech-02 系列语音模型在海外火了起来,很多海外自来水大 V 纷纷转发,国产大模型的又一次胜利。
说了这么多,我们先听一下这段效果音频:
深沉的电影级低音,具有身临其境的深度强大的语音增强器和丰富的设置 - 非常适合电影、游戏、播客等。录音室级音频触手可及。
如果你经常看我的视频,那我的声音,应该不陌生。
而我要说,你听到的这段自然的音频,就是用这个 AI 合成的。而且还能做语种迁移,支持说英文。
说实话,我可读不出来这么地道的感觉。
Speech-02 系列语音模型真得太强了,后面我会放出更多的效果实测,先跟大家聊聊 Speech-02 系列语音模型到底是个啥?
Speech-02-hd:旗舰模型,主打超高保真度、表现力极强。 Speech-2-turbo:高性价比,同时在多语种生成上也有很不错的表现。
使用地址:
https://www.minimax.io/audio
他们真不是"语音圈新人"
不少人提起 MiniMax,第一反应是 "这不是做通用大模型的那家?"
但其实在语音领域,MiniMax 早就默默深耕了很久。
比如,最近全网刷屏的 "高途吴彦祖教英语",那个说话丝滑、语气自然到像真人一样的 AI 阿祖,其声音也是 MiniMax 的语音模型生成的!阿祖的爆火不仅是内容创意,也更是技术力的体现。
不仅如此,MiniMax 的语音模型也正在走向国际舞台。硅谷的一家视频叙事工具公司 Hedra,专注于打造可定制的数字化身与虚拟角色,已经集成了 MiniMax 最新的语音模型,为用户打造更真实的声音体验。
甚至连智能玩具也被他们点亮了!爱小伴和国民级 IP 奶龙联名推出了 AI 玩伴机器人,为了还原奶龙那标志性的萌系声线,特别选用了 MiniMax 的语音模型。
应用场景可谓是非常广,而大家都选择它的原因也很简单:效果出类拔萃。
区别于其它语音模型,Speech-02 模型还额外支持个性化定义语音。
在多语种语音生成的表现上,MiniMax 的Speech-02模型同样可圈可点。根据字错率(WER)和语音相似度(SIM)这两个关键指标,与 11Labs 进行了对比测试:
相似度方面:整体上优于 11Labs,语音复刻效果更自然、更贴近原声。
字错率方面:MiniMax 不仅在 11Labs 的主场语言英语上实现了反超,在法语、日语等主流语种中也展现出强劲实力,覆盖面广。
一、Speech-02 体验
给我的感觉是,它的效果不止是"拟人",简直可以说是"本尊驾到"。
我拿更多数据进行了实测,Speech-02突出的就是一种拟人感,真实感。说白了就是没有"AI味儿"。
无论是哪种语言的迁移,能够保证真实感。
中文:春天的公园今天是温暖的春日。公园里孩子们在嬉戏玩耍,欢声笑语。樱花盛开得很美。还可以听到鸟儿的声音。感觉非常舒适。
日语:春の公園は今日、温かい春の日です。公園では子供たちが遊び、笑い声が響いています。桜がとても美しく咲いています。鳥の声も聞こえてきます。とても心地良い気分です。
不止音色像,它甚至学会了周董特有的咬字方式、停顿节奏、语气习惯。那种熟悉的"含糊感",Speech-02 模型也能复刻出来了!
整个制作过程也不超过一分钟,直接上传音频素材,它会自动分析进行保存。并且MiniMax也提供丰富的语音库供大家使用。
除此之外,Speech-02 还支持丰富的自定义功能,包括声音克隆、情感调节、语速音高控制等。自由度很高,也就是可以个性化设置。
我直接试了一下我自己的音频,下面这段音频,就是我上传自己的声音素材后,Speech-02 快速生成的结果。
中文:大家好,我是Jack Cui, 很高兴为大家提供声音配音服务。
看过我视频的朋友应该很熟悉这个声音,不妨对比一下,看看学得像不像我。 里面有很多参数都是可以任意调节的:
除了听起来真、适配性强,Speech-02 还有一个杀手锏:超强的多语种能力。它支持高达32个语言,覆盖多个语系。
哪怕一段音频里中英混说,它也能接得很顺、说得很溜,毫无突兀感。
好家伙,我的中英文混读稿,也能交由 AI 完成了?
中英文字:Ollama 是一个可以在本地轻松运行大语言模型的平台,just one command to start models like Llama3 or Mistral locally。
英语都是小菜一碟,来听听粤语:
粤语:Ollama 是一個可以在本地輕鬆運行大型語言模型的平台,只需一個命令就可以在本地啟動像 Llama3 或 Mistral 的模型。
这是阿拉伯语:
阿拉伯语:Ollama هو منصة يمكن تشغيل نماذج اللغة الكبيرة بسهولة محلياً، مجرد أمر واحد لبدء نماذج مثل Llama3 أو Mistral محلياً.
还有韩语也不在话下:
Ollama는 로컬에서 Llama3나 Mistral과 같은 대형 언어 모델을 쉽게 실행할 수 있는 플랫폼으로, 단 하나의 명령어로 시작할 수 있습니다.
熟悉小语种的朋友,听听下面的印度语发音标准不?
印度语:Ollama एक ऐसा प्लेटफॉर्म है जहाँ आप स्थानीय रूप से बड़े भाषा मॉडल को आसानी से चला सकते हैं, बस एक कमांड से Llama3 या Mistral जैसे मॉडल को स्थानीय रूप से प्रारंभ कर सकते हैं।
就这效果,能打的语音大模型有哪家?
二、Speech-02 为何这么强?
前面聊了这么多体验感受,可能你也跟我一样好奇:Speech-02 为什么能做到这么自然且真实?
经过深挖,我发现它在模型结构和训练方式上,做了很多技术细节上的突破。从输入的编码器到输出的解码器,MiniMax 对各个模块都进行了深度优化,还全方面升级了训练策略。
1. Learnable Speaker Encoder(可学习说话人编码器)
大部分语音模型,提取音色的方法都很传统,依赖一种叫"speaker verification 模型"的技术,说白了就是"做个声音识别器",告诉系统这是谁的声音。
但问题是,这类模型往往需要转录好的文本配合,适配性差、训练目的也不统一。
而 MiniMax 的做法是:让模型自己学。
它用一个"可学习的说话人编码器"(Learnable Speaker Encoder),直接从你上传的音频中,自动提取出你的声音特征、情绪风格、语调节奏等,不需要文字,不需要对齐,直接"听一遍就学会"。
这就是为什么 Speech-02 能做到:
Zero-shot voice cloning:听一次就能复刻声音 跨语言合成:日语说起来也像周董 没有转录数据也能训模型
2. Flow-VAE解码器
再说说它的解码器。传统语音模型一般用 VAE 或 spectrogram,那种方式有点像你先画了个大致轮廓,但很多声音细节就丢了,比如气息、尾音的顿挫、停顿的节奏感。
MiniMax 用的是一种组合方案,叫做 Flow-VAE。
可以把它理解成:"VAE 先起草稿,Flow 模型再来精修细节",让声音听起来更真实、有细节。
这也是为什么我们听到周董的音频,不光是音色像,连那种"懒洋洋、嘴巴没张开的唱腔"都复刻出来了。
3. 联合训练
以往很多语音模型,是把各个模块(比如语音编码器、合成器)分别训练好,然后再拼在一起用。
但问题是:这些模块训练目标不同,组合起来常常就显得生硬。
MiniMax 的做法是,从头到尾一起训练,让 Speaker Encoder 和语音生成模型(Autoregressive Transformer)是一个整体,互相适配。
再加上 32 种语言的大数据训练,让它在多语种、多口音、多情绪的表现力上都能打满分。
说了这么多,再好的模型,效果再强,用不起也白搭。
而在这一点上,MiniMax 做得非常厚道。
相较于 ElevenLabs,MiniMax 的Speech-02语音模型在性能登顶的基础上,在性价比方面可谓遥遥领先,价格仅是 11labs 的四分之一。
三、最后
现在,国产语音赛道也迎来了一位真正能让 OpenAI 和 ElevenLabs 感到压力的强敌。它也有着我心中 TOP1 语音模型 的实力。
如果以后再有人问我"有没有语音合成工具推荐"?
我会毫不犹豫地说:MiniMax的Speech-02语音模型,值得一试。
>/ 本期作者:与之 & JackCui
>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。
没有评论:
发表评论