听说了吗？

语音克隆又迎来一个开源王炸：VoxCPM 。

在 Seed-TTS-EVAL 等权威语音合成评测榜单中，都取得了 SOTA 的成绩。

先来看官方介绍，内含大量 demo 实例。

一经推出，在外网上也是收割了一众好评。

评价这么好，我也第一时间去实测了一波。

来看看效果。

效果真挺惊艳的，但它能做的还有更多。

我也从它的特点各方面进行了实测，一起来看更多有趣 case 。

指路链接：

Github：

https://github.com/OpenBMB/VoxCPM/

Huggingface：

https://huggingface.co/openbmb/VoxCPM-0.5B

PlayGround 体验：

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

一、模型实测

语音克隆

首先是最基本的中、英文和动画人物的语音克隆。

比如特朗普和他的 MAGA ：

Forget about America, let's make AI great again.

王冰冰做新闻播报：

各位观众大家好，首先关注国际消息：在联合国举行的气候峰会上，多国领导人重申了对可持续发展的承诺，并提出将在未来十年内进一步加强碳减排合作。专家表示，这是全球应对气候变化的重要一步。

海绵宝宝：

如果今天不开心，就去翻个蟹黄堡吧！翻到开心为止！

都能还原得很到位，效果非常逼真。

口音

我们来加点难度，看看它在有口音的情况下的表现。

来听听乐呵的天津口音和四川口音：

天津话：
嘛钱不钱的，就图一乐呵！您了伸手点个赞，比嘛都强！
四川话－风车车：
搓了一个通宵的麻将，累死老子了，咪5分钟再来。

再来测测英语。

一起来听听《唐顿庄园》中 Mary 的英式口音和来自宝莱坞的印度口音：

英式口音：
How amusing. You always think events will unfold according to your plan. I do wish life was as simple as a fairy tale.
印度口音：
Hello my friend! Your computer has a problem? Don't worry, just restart it! One hundred percent working!

测试下来，有口音的克隆也完全不在话下，效果挺不错的。

因文赋声

VoxCPM 与其他模型相比的一大优势在于它可以理解用户输入的文本，自动调节语音情绪，自主选择恰当的风格和节奏。

情绪的表现力和丰富度都很好，一起来听听。

VoxCPM 还支持跨语言克隆，有数字和符号也能准确生成：

声临其境

VoxCPM 不仅可以克隆人声，还能复刻语音中的背景噪声，是真的能实现"声"临其境了。

雨天：

雨声潺潺，像住在溪边。宁愿天天下雨，以为你是因为下雨而不来。

咖啡馆：

你好，请给我来杯冰摩卡双倍糖，谢谢。

雨天的背景音还原的不错，咖啡馆的效果就不是很令人满意了。

支持数学公式、符号

VoxCPM 克隆的语音可以识别数学符号。我们让《生活大爆炸》的谢尔顿来给我们出题：

Alright, pay attention. If △ABC ∽ △DEF, and AB : DE = 1 : 2, then the question is: what is the ratio of the areas of △ABC to △DEF? And please, try not to let your brains explode before you answer.

自定义读音

对于某些容易读错的字，模型也总是读错。比如本应该是三声的癖好，常常被读成四声。

VoxCPM 支持通过 {拼音加数字} 的方式来指定读音。

真是奇怪的癖好。
真是奇怪的癖{pi3}好。

二、为什么VoxCPM这么强

VoxCPM 作为用于上下文感知语音生成和逼真的语音克隆的无分词器 TTS 模型，它克服了离散标记化的局限性，实现了两大功能：上下文感知语音生成和逼真的零样本语音克隆。

上下文感知语音生成让它能够理解文本，从而自主判断生成语音的韵律和风格，增强语音的表现力。

VoxCPM 模型只需一个简短的参考音频，就可以实现极其逼真的零样本语音克隆。

不仅能够还原说话者的音色，还捕捉口音、情感语气、节奏和节奏等细粒度特征，进而达到以假乱真的效果。

模型核心架构如下，包含了局部音频编码模块、文本-语义语言模型、残差声学语言模型、局部扩散生成模块四大模块。

和把语音转换为离散标记的传统方法不同，VoxCPM 使用的是端到端扩散自回归架构，直接从文本生成连续的语音表示。

模型基于 MiniCPM-4 构建，通过分层语言建模和有限标量量化约束实现隐式语义-声学解耦，大大增强了表达性和生成稳定性。

同时，VoxCPM 也实现了高效能的推理。在单张 NVIDIA RTX 4090 显卡上可以做到 RTF实时因子低至 0.17 的流式合成。

三、最后

这两天密集地使用，尝试过各种 case 下来最大的感受就是：它在语音克隆这方面的效果真心不错，生成的语音不仅逼真、质量高，表现力也很丰富，非常适合用来做自己的"声音分身"。

用起来也非常便捷。

我们只需要上传参考音频、输入想要生成的语音文本，然后点击生成语音就完成了。

语音生成的速度也非常快，通常几秒就能搞定。

一个小 tip ：为了生成语音的效果，参考音频应当尽量纯净，没有杂音。

最后，VoxCPM 模型现在免费试用，感兴趣的小伙伴抓紧去下方的链接体验一下吧。

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

>/ 本期作者：Tashi & JackCui

>/ JackCui：AI领域从业者，毕业于东北大学，大厂算法工程师，热爱技术分享。

AI I024

2025年9月20日星期六

语音克隆又迎来一个开源王炸：VoxCPM