我是阿木易,一个啥都会点的设计师🎨,正在研究AI编程,想自己造点不一样的东西。
我是阿木易,一个啥都会点的设计师🎨,正在研究AI编程,想自己造点不一样的东西。👀
字数 759,阅读大约需 4 分钟
我先说结论:这玩意儿, 我一开始还真没当回事 。
前几天在社交平台刷到一个"AI克隆音频"的视频,标题起的还挺唬人。
我当时心想:哎呀,这类配音工具不是一大堆嘛。
感觉现在的AI配音工具要么机械,要么一听就很假
甚至还有点审美疲劳了:感觉这赛道该卷的都卷过了,再出也没啥新花样。
---但我还是点了进去。
就是那种——明知道可能失望,但手又不听使唤的感觉。
结果点开官方的Demo,看了30秒不到,我当场闭嘴了。
咱们可以看一下:
我看完的第一反应就是—— 真挺牛的。
它不是在"朗读",而是"替换"!
原视频一模一样的画面,音频却被换掉了,听起来却毫无违和。
重点是: 情绪、音色、语气,甚至节奏,全都保留住了。
那种"说话时的愤怒"、"口音里的气口",还有那些脏话居然也复刻了。
我甚至听到它保留了原声里一点点小"磕巴",那一刻我鸡皮疙瘩都起来了。
那这到底是啥东西?
我后来去查了查,发现是 一个叫 Index-TTS 2 的工具。
而且是咱国内B站团队开源的一个AI语音模型。
说实话,这功能,真有点逆天。
咱看看都有哪些功能:
功能1:灵魂复刻
官方叫"零样本情感克隆"。
意思是,你只要给它几秒带情绪的音频,它就能学会"用这种感觉"说话。
不需要录音棚,不需要训练,几乎一键就能上手。
功能2:原声翻译
也就是Demo里那个神奇效果。
能把中文视频直接变成英文、日文、西语……
重点是——还保留你自己的声音和语气。
这对做内容的人来说,简直是梦寐以求。
功能3:音画同步
做过剪辑的都懂,这点太贴心了。
它可以控制AI语音的说话时长,比如"这句必须在5.2秒内说完",
这样剪视频的时候,嘴型、动作都完美对齐。
不过说实话,我还没自己试过。
Demo看起来确实惊艳,但实际体验效果怎么样,还得打个问号。
比如音频素材是不是得特别干净?普通人随便录一段能不能复刻?
这些都要等试完以后才知道。
不过好消息是——它 开源了!
这意味着,任何人都能下载下来试。
尤其是搞技术、玩AI的朋友,可以直接上手折腾。
我自己也打算去试试。
如果真能做到Demo那种效果,我一定回来出个上手测评。
https://github.com/index-tts/index-tts
往期精选:
没有评论:
发表评论