2025年7月24日星期四

MiniMax语音再放大招,AI语音效果碾压11Labs!(附全功能横测)

2个月前,我写过一篇 MiniMax 的 AI 声音克隆模型。

回顾指路:

一个极具颠覆性的技术,「5秒音色克隆」火了!

图片

Speech-02-HD 双权威榜第一名,效果非常能打。

图片

毫不夸张地说,现在已经有大量的 ElevenLabs 用户转向这个国产的 AI 声音平台。

图片

我以为 AI 声音克隆这块,已经做得很极限了,产品功能很难再有提升。

我是万万没想到,MiniMax 语音又上线了一个新功能:音色设计——只需一句话描述,就能生成一个有个性、情绪饱满、有戏感的 AI 声音角色。

一经推出,就在外网上收割了一波好评。

图片

更重要的是,该功能国内版和海外版同步上线。也就是说,无需魔法,国内用户就能免费体验。

指路链接:

www.minimaxi.com/audio

我们先一起来感受一下它的效果。

效果非常好,语调起伏自然,情感饱满真实,简直和真人说话差不多。

接下来,我们就上手实测一下,看看MiniMax 语音这波到底是如何把 ElevenLabs 拽下所谓神坛的?!

测评

音色设计

找到"音色设计"部分,在"提示词"文本框中输入自己对音色的要求和期待。一句话就能定制出自己专属的独一无二的 AI 语音。

再填入想要试听的文本,点击"生成"即可。整个过程操作非常简捷丝滑。

它会生成 3 个音色供你选择,挑一个你喜欢的保存就好。如果都不满意,可以点击"重新生成"。目前 MiniMax 语音为每个用户免费提供了 3 个音色卡槽。

图片

我们一起来听听上图中的 case 生成的语音。

case 1 年轻男声:

不仅完全符合了图中 prompt 的要求,更关键的是语气自然真实,满满的活人感,对于要积极向上这样的细节也实现的很到位。

我们还根据不同年龄段、不同性别测试了不同风格的音色设计,效果都非常不错,一起来听一下吧。

case 2 温暖老奶奶:

Prompt:一个年迈的老奶奶,声音沧桑温暖,语速缓慢但咬字清晰,说话充满人情味,让人放松、安心,像小时候外婆的声音。

试听文本:外面风大,多穿点衣服,别着凉了。奶奶这儿啊,总给你留着一碗热汤,什么时候回来都有。别怕,安心就好~

不得不说,我非常满意这个音色,和期待的感觉完全一致,跟外婆哄孩一点没差。

case 3 可爱童声:

Prompt:一个儿童动画片里的主角角色,声音软萌稚嫩,语调活泼,像小朋友一样兴奋地讲故事,说话富有童真和想象力,非常适合配儿童动画、亲子节目或讲绘本故事。

试听文本:哇!我看到一只小精灵,它有闪闪的翅膀,还带着一顶蘑菇帽!我们一起去它的魔法森林里探险吧!

再来看看 ElevenLabs 的"音色设计"功能。

图片

为了方便效果对比,我直接复用了 case 2 的 prompt 和文本,得到的语音"委婉"地形容一下:简直没法听。

TTS效果测评

得到满意的音色后,可以保存到自己的音色库中,方便后续反复使用。

图片

接着就可以在"语音合成"中直接调用,愉快玩耍了。不用再担心音色一致性的问题了。

图片

音色效果控制

除了基础的 TTS 实现,MiniMax 语音提供了超级全面的 TTS 控制,你可以在设计的音色效果之上,再根据新使用的文本特色对音色进行进一步的调节。

图片

包括音色的明亮与低沉、柔和与力量感、清脆与磁性。还提供了回声、广播之类的声音特效,可以说是满足你能想到的所有需求。

比如,我们使用先前设计的 case 2 老奶奶音色来生成一段外婆打来电话的语音。

图片

调试台还贴心地提供了语速、声调、音量相关的设置,确保你得到的语音和你想象中的分毫不差。

图片

情绪调节

除此之外,如果你觉得生成的语音情绪还不够强烈,MiniMax 语音也上线了"情绪调节"功能,涵盖了开心、难过、生气、惊讶、厌恶等 7 种情绪。如果你不想指定语音的情绪,保持默认的自动即可。

图片

我们也拿 case 1 音色测试了几个,效果都很不错,情绪张力满满。

开心的 prompt :

你知道吗?当我看到那个消息的瞬间,简直不敢相信自己的眼睛。我一直以为我们只是试试看,没想到真的成功了。太棒了!这些天的努力没有白费,我们真的做到了!

生气的 prompt :

你知道他今天说了什么吗?他说我们所有的努力根本没有意义!每次出了问题,他永远都是第一时间撇清责任,把锅甩给别人。我们在这儿加班加点,他呢?一句话就想全盘否定?他根本不尊重我们!

害怕的 prompt :

等一下……你有没有听到楼上传来的声音?像是有人在走动。应该是风吧?不,不对……太安静了。我们是不是……是不是该出去看看?

总的来说,MiniMax 语音真的算是中文 TTS 天花板了。

反观 ElevenLabs ,通过音色设计出的中文语音根本不能用,所以我们去官方的音色库里面找到了官方精选的中文语音。

听了该语音的官方例子,你会最直观地体会到什么叫做碾压。

先不谈 MiniMax 语音可以实现的自然活人感,超强的情绪张力以及情绪控制,还有戏感,ElevenLabs 连最基本的读字准确性都做不到。

可能有些小伙伴会觉得和老外比普通话 TTS 不公平,那我们接下来看看在英语的 TTS 方面,两者的表现怎么样。

日常对话 prompt:

Hey, how's it going? I was just thinking about our trip last weekend. That sunset by the lake was unreal, wasn't it?

MiniMax 语音:

ElevenLabs :

ElevenLabs 生成的语音语调抑扬顿挫更明显,但是从语音开头的高亢到后面突然变得轻柔之间的转变略显突兀。整体效果还是 MiniMax 语音更好。

新闻播报 prompt:

Breaking news this evening: Scientists have discovered a potentially habitable exoplanet just 12 light-years away. More updates to follow.

MiniMax 语音:

ElevenLabs :

两个语音效果都很好,在自然度、情绪表达和真实感等各个方面,MiniMax 语音都不输 ElevenLabs 。

音色库

除了中英文,MiniMax 语音提供了比 ElevenLabs 更丰富的音色库,涵盖了包括法语、德语、粤语、意大利语、日语等 40 多种语言。

还可以通过筛选语言、口音、性别、年龄,快速找到需要的音色。

图片

长文模式

如果你有长文本需要转语音,可以打开"长文模式",MiniMax 语音现在可支持字符长达 20w 的文本。

图片

进阶——MCP 调用

网页版的基础功能体验的差不多了,正好音色设计功能也已经正式支持 MCP 服务了,我们来玩点进阶的——用 MiniMax 语音来做有声书。

最终希望实现的效果是我给它输入小说文本,它就可以生成语音。

对效果的要求主要有以下几点:

  • 自动识别对话和旁白
  • 区分角色及其台词
  • 可以为每个角色设计独特的音色以供区分
  • 在朗读的基础上,对话的语音能够根据文本表达出相应的情绪。

这个要是掌握了,以后无论想听什么有声书直接自己定制,就很爽。

具体实现起来也很简单。

无需写代码,我们直接交给 DeepSeek,让它帮我们写,具体实现操作请移步之前发的教程。

教程链接:

DeepSeek装进VSCode,编程非常丝滑!

VSCode 设置好后,我们找到插件 Roo Code 的 MCP 服务器设置。

图片

这里需要先给插件接入 Minimax MCP 服务。

首先,我们去下面这个链接,创建新的密钥。名称可以随便填写,生成的密钥记得及时保存,后续就看不到了。

指路链接:

https://platform.minimaxi.com/user-center/basic-information/interface-key

图片
图片

接着,我们去下图网站中找到 MiniMax MCP 配置代码。

图片

如果你懒得去找,这里也直接给你准备好了。

"MiniMax": {
      "command""uvx",
      "args": [
        "minimax-mcp"
      ],
      "env": {
        "MINIMAX_API_KEY""insert-your-api-key-here",
        "MINIMAX_MCP_BASE_PATH""local-output-dir-path, such as /User/xxx/Desktop",
        "MINIMAX_API_HOST""https://api.minimax.chat",
        "MINIMAX_API_RESOURCE_MODE""optional, [url|local], url is default, audio/image/video are downloaded locally or provided in URL format"
      }
    }

这里需要修改 3 个参数:

MINIMAX_API_KEY:填入刚刚保存的 MCP 密钥。

MINIMAX_MCP_BASE_PATH:输入你想要保存输出结果的本地目录。

MINIMAX_API_RESOURCE_MODE:可选择为 url 或者 local ,默认为 url ,即输出文件以 url 网络连接的形式返回,如果文件输出在本地直接修改为 local 即可。

然后,我们回到 VSCode,找到插件,选择"编辑 MCP 设置"。在 "mcpServers" 下添加刚刚准备好的参数设置代码。

配置好后左侧的 MCP 服务器列表就会自动出现 MiniMax ,右侧的小绿点即表示 MCP 服务接入成功,可以使用了。

接下来我们就可以通过插件的对话框调用 MiniMax 语音包括音色设计、TTS 等工具了。

图片

回到和 Roo Code 对话页面,新建任务,发送以下 prompt:

角色:你是一个专业的有声书制作人。

技能

  1. 你能阅读并理解小说文本。

  2. 你能精确区分出文本中的"旁白"部分和不同角色的"对话"部分。

  3. 你能分析出每句对话所蕴含的核心情感(例如:开心、难过、生气、害怕、厌恶、惊讶、中性等)。

  4. 你拥有一个强大的文本转语音工具集(tools),可以调用MiniMax的各种工具接口来生成或者处理声音。

工作流程

  1. 读取用户输入的小说段落。

  2. 逐句分析文本,判断是旁白还是对话。

  3. 如果是旁白,使用音色设计工具,生成旁白的音色,并记住旁白的voice_id

  4. 如果是角色A的对话,根据对A角色的描述使用音色设计工具生成其音色,记住voice_id,并分析其情感,将情感参数(emotion)一并传入TTS工具,生成A角色+情感的语音。

  5. 如果是角色B的对话,同上。

  6. 将分析好的片段和参数,依次调用语音合成工具,最终拼接成一段完整的、分角色、带情感的有声音频,并保存到本地。

然后它会让我们提供朗读的文本。

图片

下一步,除了小说,我们也给它规定好工作流程,输入以下的 prompt。注意这里需要你修改保存到本地的路径,小说文本随意换成你想听的就行。我们这里选择了《庆余年》的一段文本作为示例。

工作流程

1.读取用户输入的小说段落。

2.逐句分析文本,判断是旁白还是对话。

3.-如果是旁白,使用声音设计工具,生成旁白的音色,并记住旁白的voice_id

4.-如果是角色A的对话,根据对A角色的描述使用声音设计工具生成其音色,记住voice_id,并分析其情感,将情感参数(emotion)一并传入TTS工具,生成A角色+情感的语音。

5.-如果是角色B的对话,同上。

6.将分析好的片段和参数,依次调用语音合成工具,最终拼接成一段完整的、分角色、带情感的有声音频,并保存到本地。注意:所有生成的音频都要保存到本地这个路径下:D:\cursor_prj\output\novel4

小说:

惜字如金的五竹叔终于开口问范闲:"去做什么呢?"

范闲愣了愣,然后不由笑了笑,回答道:"自然是去看看这个世界到底是什么模样的。"

五竹仍然没有回头,冷淡地说道。"外面的世界很危险。"

范闲耸耸自己瘦弱的肩膀,模样看着有些滑稽:"有五竹叔保护我,怕什么?"

五竹平稳地说:"和小姐出来后,我忘记了一些事情。"又忽然顿了顿:"所以这个世界上有很多人可以伤害到我,自然也就能伤害到你。"

范闲抬起头,看着瞎子五竹那张似乎永远没有表情的脸,想了想,有些不好意思回答道:"我会保护你的。"

图片

从智能体的回复可以看到它先是识别出旁白和各个角色,一共需要 3 个音色:旁白、五竹、范闲。

然后对各个音色进行设计,旁白是中性平静的声音,五竹使用深沉单调严肃的音色,范闲使用年轻、富有表达力的音色。分析得还是很贴合角色的。

它还对每句话的情绪进行了设定,比如范闲的第一句话是开心/玩味,第二句是执着坚定,第三句台词是真诚。

剩下的就是坐在电脑前耐心等待,并在智能体询问权限的时候点击允许即可。最后生成的语音文件会统一放到刚刚指定的路径下。

图片

最后一步,将所有音频拖入剪映整合成一段,我们一起来听听最终的效果吧。

怪好玩的,整个过程也不复杂,推荐大家上手试试,以后想听什么都可以自己做。

测评总结

总的来说,MiniMax 语音真的算目前最强的 TTS 了。

它的音色设计功能也绝对会给人带来惊喜,具备的超强情绪表达力和戏感非常适合用来整活,值得上手玩一玩。

它不仅在性能表现上碾压 ElevenLabs ,而且价格也比后者便宜。

现在注册更是福利多多,每个账号可以免费领 3 个音色卡槽和 1w 声贝,大概可以生成 12 分钟的语音。

还有 6 次情绪调节体验以及 6 次音色效果调节,初步体验完全够用了。

有需求的小伙伴可以按需入手相应的会员。

图片

也可以选择单独购买声贝,性价比拉满。我给大家仔细算了一波,直接充40元的声贝数相当于36元基础会员声贝权益的2倍,在有效期上也长达两年。

图片

话不多说,我要接着去玩了,感兴趣的小伙伴们也赶紧去试试吧。

官网链接:

www.minimaxi.com/audio

>/ 本期作者:Tashi  & JackCui

>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。

没有评论:

发表评论

你也能做AI开发者!MyShel让无编程经验者也能创建智能体

总的来说,MyShel是一个具有巨大潜力的AI代理开发平台,它为普通用户和企业提供了低门槛的AI应用开发工具。 在快速发展的人工智能(AI)领域,如何让普通用户也能轻松地使用和开发AI应用?MyShel,这个平台结合了AI与区块链技术,推出了一个全新的AI代理开发平台,让每个...