2025年9月20日星期六

语音克隆又迎来一个开源王炸:VoxCPM

听说了吗?

语音克隆又迎来一个开源王炸:VoxCPM 。

图片

在 Seed-TTS-EVAL 等权威语音合成评测榜单中,都取得了 SOTA 的成绩。

图片

先来看官方介绍,内含大量 demo 实例。

一经推出,在外网上也是收割了一众好评。

图片
图片
图片
图片

评价这么好,我也第一时间去实测了一波。

来看看效果。

效果真挺惊艳的,但它能做的还有更多。

我也从它的特点各方面进行了实测,一起来看更多有趣 case 。

指路链接:

Github:

https://github.com/OpenBMB/VoxCPM/

Huggingface:

https://huggingface.co/openbmb/VoxCPM-0.5B

PlayGround 体验:

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

一、模型实测

语音克隆

首先是最基本的中、英文和动画人物的语音克隆。

比如特朗普和他的 MAGA :

Forget about America, let's make AI great again.

王冰冰做新闻播报:

各位观众大家好,首先关注国际消息:在联合国举行的气候峰会上,多国领导人重申了对可持续发展的承诺,并提出将在未来十年内进一步加强碳减排合作。专家表示,这是全球应对气候变化的重要一步。

海绵宝宝:

如果今天不开心,就去翻个蟹黄堡吧!翻到开心为止!

都能还原得很到位,效果非常逼真。

口音

我们来加点难度,看看它在有口音的情况下的表现。

来听听乐呵的天津口音和四川口音:

天津话:

嘛钱不钱的,就图一乐呵!您了伸手点个赞,比嘛都强!

四川话-风车车:

搓了一个通宵的麻将,累死老子了,咪5分钟再来。

再来测测英语。

一起来听听《唐顿庄园》中 Mary 的英式口音和来自宝莱坞的印度口音:

英式口音:

How amusing. You always think events will unfold according to your plan. I do wish life was as simple as a fairy tale.

印度口音:

Hello my friend! Your computer has a problem? Don't worry, just restart it! One hundred percent working!

测试下来,有口音的克隆也完全不在话下,效果挺不错的。

因文赋声

VoxCPM 与其他模型相比的一大优势在于它可以理解用户输入的文本,自动调节语音情绪,自主选择恰当的风格和节奏。

情绪的表现力和丰富度都很好,一起来听听。

VoxCPM 还支持跨语言克隆,有数字和符号也能准确生成:

图片

声临其境

VoxCPM 不仅可以克隆人声,还能复刻语音中的背景噪声,是真的能实现"声"临其境了。

雨天:

雨声潺潺,像住在溪边。宁愿天天下雨,以为你是因为下雨而不来。

咖啡馆:

你好,请给我来杯冰摩卡双倍糖,谢谢。

雨天的背景音还原的不错,咖啡馆的效果就不是很令人满意了。

支持数学公式、符号

VoxCPM 克隆的语音可以识别数学符号。 我们让《生活大爆炸》的谢尔顿来给我们出题:

Alright, pay attention. If △ABC ∽ △DEF, and AB : DE = 1 : 2, then the question is: what is the ratio of the areas of △ABC to △DEF? And please, try not to let your brains explode before you answer.

自定义读音

对于某些容易读错的字,模型也总是读错。 比如本应该是三声的癖好,常常被读成四声。

图片

VoxCPM 支持通过 {拼音加数字} 的方式来指定读音。

真是奇怪的癖好。

真是奇怪的癖{pi3}好。

二、为什么VoxCPM这么强

VoxCPM 作为用于上下文感知语音生成和逼真的语音克隆的无分词器 TTS 模型,它克服了离散标记化的局限性,实现了两大功能:上下文感知语音生成逼真的零样本语音克隆

上下文感知语音生成让它能够理解文本,从而自主判断生成语音的韵律和风格,增强语音的表现力。

VoxCPM 模型只需一个简短的参考音频,就可以实现极其逼真的零样本语音克隆。

不仅能够还原说话者的音色,还捕捉口音、情感语气、节奏和节奏等细粒度特征,进而达到以假乱真的效果。

模型核心架构如下,包含了局部音频编码模块、文本-语义语言模型、残差声学语言模型 、局部扩散生成模块四大模块。

图片

和把语音转换为离散标记的传统方法不同,VoxCPM 使用的是端到端扩散自回归架构,直接从文本生成连续的语音表示。

模型基于 MiniCPM-4 构建,通过分层语言建模和有限标量量化约束实现隐式语义-声学解耦,大大增强了表达性和生成稳定性。

同时,VoxCPM 也实现了高效能的推理。在单张 NVIDIA RTX 4090 显卡上可以做到 RTF实时因子低至 0.17 的流式合成。

三、最后

这两天密集地使用,尝试过各种 case 下来最大的感受就是:它在语音克隆这方面的效果真心不错,生成的语音不仅逼真、质量高,表现力也很丰富,非常适合用来做自己的"声音分身"。

用起来也非常便捷。

图片

我们只需要上传参考音频、输入想要生成的语音文本,然后点击生成语音就完成了。

语音生成的速度也非常快,通常几秒就能搞定。

一个小 tip :为了生成语音的效果,参考音频应当尽量纯净,没有杂音。

最后,VoxCPM 模型现在免费试用,感兴趣的小伙伴抓紧去下方的链接体验一下吧。

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

>/ 本期作者:Tashi  & JackCui

>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。

没有评论:

发表评论

开放指令编辑效果爆表!小米开源Lego-Edit登顶SOTA:用强化学习教MLLM“举一反三”!

点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 作者:Qifei Jia等 解读:AI生成未来 论文链接:https://arxiv.org/pdf/2509.12883 Git链接:https:/...