听说了吗?
语音克隆又迎来一个开源王炸:VoxCPM 。
在 Seed-TTS-EVAL 等权威语音合成评测榜单中,都取得了 SOTA 的成绩。
先来看官方介绍,内含大量 demo 实例。
一经推出,在外网上也是收割了一众好评。
评价这么好,我也第一时间去实测了一波。
来看看效果。
效果真挺惊艳的,但它能做的还有更多。
我也从它的特点各方面进行了实测,一起来看更多有趣 case 。
指路链接:
Github:
https://github.com/OpenBMB/VoxCPM/
Huggingface:
https://huggingface.co/openbmb/VoxCPM-0.5B
PlayGround 体验:
https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
一、模型实测
语音克隆
首先是最基本的中、英文和动画人物的语音克隆。
比如特朗普和他的 MAGA :
Forget about America, let's make AI great again.
王冰冰做新闻播报:
各位观众大家好,首先关注国际消息:在联合国举行的气候峰会上,多国领导人重申了对可持续发展的承诺,并提出将在未来十年内进一步加强碳减排合作。专家表示,这是全球应对气候变化的重要一步。
海绵宝宝:
如果今天不开心,就去翻个蟹黄堡吧!翻到开心为止!
都能还原得很到位,效果非常逼真。
口音
我们来加点难度,看看它在有口音的情况下的表现。
来听听乐呵的天津口音和四川口音:
天津话:
嘛钱不钱的,就图一乐呵!您了伸手点个赞,比嘛都强!
四川话-风车车:
搓了一个通宵的麻将,累死老子了,咪5分钟再来。
再来测测英语。
一起来听听《唐顿庄园》中 Mary 的英式口音和来自宝莱坞的印度口音:
英式口音:
How amusing. You always think events will unfold according to your plan. I do wish life was as simple as a fairy tale.
印度口音:
Hello my friend! Your computer has a problem? Don't worry, just restart it! One hundred percent working!
测试下来,有口音的克隆也完全不在话下,效果挺不错的。
因文赋声
VoxCPM 与其他模型相比的一大优势在于它可以理解用户输入的文本,自动调节语音情绪,自主选择恰当的风格和节奏。
情绪的表现力和丰富度都很好,一起来听听。
VoxCPM 还支持跨语言克隆,有数字和符号也能准确生成:
声临其境
VoxCPM 不仅可以克隆人声,还能复刻语音中的背景噪声,是真的能实现"声"临其境了。
雨天:
雨声潺潺,像住在溪边。宁愿天天下雨,以为你是因为下雨而不来。
咖啡馆:
你好,请给我来杯冰摩卡双倍糖,谢谢。
雨天的背景音还原的不错,咖啡馆的效果就不是很令人满意了。
支持数学公式、符号
VoxCPM 克隆的语音可以识别数学符号。 我们让《生活大爆炸》的谢尔顿来给我们出题:
Alright, pay attention. If △ABC ∽ △DEF, and AB : DE = 1 : 2, then the question is: what is the ratio of the areas of △ABC to △DEF? And please, try not to let your brains explode before you answer.
自定义读音
对于某些容易读错的字,模型也总是读错。 比如本应该是三声的癖好,常常被读成四声。
VoxCPM 支持通过 {拼音加数字} 的方式来指定读音。
真是奇怪的癖好。
真是奇怪的癖{pi3}好。
二、为什么VoxCPM这么强
VoxCPM 作为用于上下文感知语音生成和逼真的语音克隆的无分词器 TTS 模型,它克服了离散标记化的局限性,实现了两大功能:上下文感知语音生成和逼真的零样本语音克隆。
上下文感知语音生成让它能够理解文本,从而自主判断生成语音的韵律和风格,增强语音的表现力。
VoxCPM 模型只需一个简短的参考音频,就可以实现极其逼真的零样本语音克隆。
不仅能够还原说话者的音色,还捕捉口音、情感语气、节奏和节奏等细粒度特征,进而达到以假乱真的效果。
模型核心架构如下,包含了局部音频编码模块、文本-语义语言模型、残差声学语言模型 、局部扩散生成模块四大模块。
和把语音转换为离散标记的传统方法不同,VoxCPM 使用的是端到端扩散自回归架构,直接从文本生成连续的语音表示。
模型基于 MiniCPM-4 构建,通过分层语言建模和有限标量量化约束实现隐式语义-声学解耦,大大增强了表达性和生成稳定性。
同时,VoxCPM 也实现了高效能的推理。在单张 NVIDIA RTX 4090 显卡上可以做到 RTF实时因子低至 0.17 的流式合成。
三、最后
这两天密集地使用,尝试过各种 case 下来最大的感受就是:它在语音克隆这方面的效果真心不错,生成的语音不仅逼真、质量高,表现力也很丰富,非常适合用来做自己的"声音分身"。
用起来也非常便捷。
我们只需要上传参考音频、输入想要生成的语音文本,然后点击生成语音就完成了。
语音生成的速度也非常快,通常几秒就能搞定。
一个小 tip :为了生成语音的效果,参考音频应当尽量纯净,没有杂音。
最后,VoxCPM 模型现在免费试用,感兴趣的小伙伴抓紧去下方的链接体验一下吧。
https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
>/ 本期作者:Tashi & JackCui
>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。
没有评论:
发表评论