我是阿木易,一个啥都会点的设计师🎨,正在研究AI编程,想自己造点不一样的东西。
我是阿木易,一个啥都会点的设计师🎨,正在研究AI编程,想自己造点不一样的东西。👀
字数 859,阅读大约需 5 分钟
好久没说AI配音的软件了。
那玩AI语音的,估计没人不知道ElevenLabs (11labs)
它效果确实牛,声音克隆也强,基本算是"王者"地位了。
我以前也用过 11labs。
说实话,它家英文确实不错,毕竟是人家的母语优势嘛。
但是,一换到中文,就不太行了。
一股那种... 你懂的,老外刚学中文的歪果仁即视感,那个腔调听着太别扭了。
这就成了咱国内用户最大的痛点。
再加上一个字: 贵。
但就在最近,一家叫 Cartesia 的公司发布了 Sonic 3
我还去体验了,感觉就是来背刺11labs的。
它抓的痛点太准了。
它最猛的核心亮点,我给你捋了一下:
一:近乎"零延迟"的实时响应
这是它最"吓人"的技术。
我看资料里提到什么 110毫秒的响应速度 ——这是啥概念?
这不是给咱录音用的,这是给咱实时对话的。
你想想现在的AI 客服、游戏 NPC、或者 AI 伴侣
最怕的就是你问一句,它"思考"两秒再回答。
Sonic 3 这种低延迟 ,就是为了解决那个"延迟尴尬",让对话听起来真的像真人在对话一样。
二:10秒声音克隆
这个对咱们创作者就太友好了。
只需要 10 秒钟 的语音样本,就能克隆出一个你的专属音色。
以后做播客、做短视频旁白,都可以用你自己的声音来生成了。
想想以前动不动就要一分钟的声音样本
现在这效率,简直是神器。
三:原生级的中文支持(实测)
这就是我重点要说的。
有了前面 11labs 那个歪果仁腔调的对比, Sonic 3 的中文简直是一股清流。
我实测了,它对中文的支持效果确实不错。
那个生硬的"塑料味"少了很多,断句和语气都舒服了不少,听着自然多了。
光凭这点,对国内用户就很有吸引力。
下面是我测试的一些语音,大家可以听一下:
四:更精细的"演技"控制 (SSML)
最后这个,是它 可玩性 和 专业性 的体现。
它提供了一堆 SSML 标签 ,让你像个导演一样去控制 AI 的表演。
我给大家列了一下都有什么:
• 控制情绪: <emotion value='angry'/>(愤怒)、sad(悲伤)、excited(高兴)• 控制停顿: <break time="300ms"/>(停顿 0.3 秒)• 控制语速: <speed ratio="1.2"/>(加快 20%)• 控制音量: <volume level="0.8"/>(降低音量)
不过,也得老实说~
这个情绪控制功能,我测试下来,有时候效果好,有时候就不太稳定。
不过官方也说了现在还在实验阶段。
而且它目前只能通过官方提供的这几个情绪标签来控制,还不能特别自由地微调情绪。
所以说 Sonic 3 这波操作确实是挺狠的。
它用"低延迟"、"10秒克隆"、"中文优化"和"精细控制"这几招
刀刀都砍在 11labs 的痛点上。
虽然有些功能(像情绪)还不算完美,
但它给创作者的掌控感是实打实的。
这就是玩具到生产力的一大进步啊~
AI配音这下,是真的要卷起来了~
对了,我还给大家看了一下,目前注册送20000积分,并且生成前几条语音是不扣积分的
而且这20000积分很耐造呀,我玩了一天,也才没消耗多少。
而且就算充值的话,一个月也才5美刀,跟续个百度网盘或者腾讯会员一个价。
这性价比真是拉满了~
感兴趣的朋友可以去官网玩玩啦~
官网地址:https://play.cartesia.ai/
往期精选:
没有评论:
发表评论