2025年9月11日星期四

一夜之间,长视频平台都上了这AI功能!

最近,YouTube 正式宣布上线 AI 配音 功能,将在未来几周内逐渐向数百万创作者提供,旨在帮助内容创作者更轻松地触达全球受众,消除语言障碍。

图片

这个计划于 2 年前就开始试点,当时仅允许一小部分创作者添加自己的多语言配音。

根据 YouTube 官方的报道,试验结果也非常可观:

平均而言,使用 AI 配音的 YouTuber 有超过 25% 的观看时长来自非视频原生语言的观众。

在著名厨师 Jamie Oliver 的频道上,使用 AI 配音将观看次数提升了 3 倍

图片

好巧不巧,B 站也上线了相似的 AI 原声翻译功能。

该功能背靠 B 站的 IndexTTS2 模型,前两天也已经正式开源。

图片

AI 配音的赛道,也是让这两家给卷起来了。

在具体对比两家效果之前,我们先来看看:为什么这些视频平台需要做 AI 配音翻译呢?

一、为什么需要 AI 配音

YouTube

先来看 YouTube 。

AI 配音需求的背后是 YouTube 的国际化。

图片

早在 2011 年,就有 60% 的观众都在使用非英语语言观看 YouTube 。

图片

如今,YouTube 超过 70% 的观众是非英语群体。

图片

亚太地区占 YouTube 总观看次数的 30% ,而欧洲则贡献了 27% 。

仅印度就有 4.91 亿 YouTube 用户,巴西有 1.44 亿,西班牙语视频占该平台所有视频的 11.8% 。

图片

这些数据也凸显了 AI 配音帮助内容创作者触达全球受众的重要性和紧迫性。

如果 YouTuber 只用英语创作内容,他就会错失 YouTube 上的大部分全球观众。

不难预料的是,当 AI 配音全面上线后,没有了语言的壁垒,必将吸引到更多国际观众,从而进一步扩大 YouTube 的国际化。

B 站

今年 5 月,B 站宣布下架原国际版 APP ,与国内版合并为一个 APP 。

图片

目前已经完成了 APP 合并、海外用户页面多语种适配。

过去的 2024 年,B 站国际版海外月活用户达 1200 万。但中文视频内容与海外用户的语言差异,成了 B 站进一步开拓海外市场的一大阻力。

而这次推出的 AI 原声翻译功能就是主要用来助力国内优质内容出海,帮助海外用户更好体验游戏、科技、二次元等主推内容,进而扩大海外市场。

二、功能使用

YouTube

YouTube 的 AI 配音工具由其子公司 Aloud 开发,于去年在 Vidcon 大会上首次推出,当时仍处于小规模测试阶段。

据透露,该配音功能基于 Google Gemini 实现。

目前已经支持的语言包括:

图片

体验方式很简单,直接在页面中找到设置,选择音轨。

图片

然后根据需要选择语言即可,YouTube 该功能目前还不支持中文。

图片

B 站

B 站的 AI 原声翻译目前正在灰度测试中,仅部分 up 主的视频可使用。

碰巧我就参加了内测,大家可以点开我的视频,点击页面右上角的三个小点就会弹出以下页面。

图片

然后点击"原声翻译"即可开启,操作起来非常丝滑。

三、二者表现对比

YouTube

先来看一个实例感受一下 YouTube 的实测效果。

大家也可以自行去下面这个链接体验一下:

https://youtu.be/YWvAXSDVBNw?si=p2G4rdm1xv7xrNj0

不少观众觉得 YouTube 的配音功能很有趣。

图片

但各大社媒上反对的声音明显比支持的呼声更大。

图片
图片
图片
图片
图片

总结一下观众的体验:"拜托!!!拜托!!!哪里可以彻底关闭它!!!太烦人了!!!"

这种本是对创作者、观众、平台三方都利好的工具,到底是哪里出了问题?

质量问题

首先就是配音的质量问题。

并非所有视频都能成功或准确地配音,可能包含由于原始视频中的发音错误、口音、方言或背景噪音造成的错误。

在翻译专有名词、习语和行话时也可能会出错。

还有声音不匹配问题。比如上面的视频实例中,本来是男性的声音,却被 AI 女声代替,沉浸感大大降低,观众容易"出戏"。

背景音频也会失真。

图片

还有这种机器人声调:"Let's enjoy - IT!",效果可以说是无语到家了。

还有很关键的一点:配音没有原始音频的语气和情感。

这一点就很致命了。

还是拿上文的视频举例,原视频中的 YouTuber 激情满满地介绍着自己疯狂经历,配音却变成了平淡无奇的机器人声。

对观众而言,还不如看双语字幕的观看体验好。

换成创作者这一边,自己的视频效果这样大打折扣同样也会不满。

"流氓"行为

除了质量问题,还有被广大网友吐槽的一点是 YouTube 直接默认启用该功能。

不少网友还遇到无法关闭的情况。

图片

在关闭后,它甚至会自动恢复默认设置,即启用配音。

图片

还有创作者提到,启用 AI 配音后视频会被推送到更大的多语言群体中,导致更小的点击率,进而影响视频流量。

总的来说,这个功能及其愿景是 AI 的一个很好应用。但现在的实现效果还远远不足以给观众提供一个良好的观看体验。

并且该功能的开启和关闭应当设置的更人性化,由创作者和观众决定。

B 站

相比 YouTube 的 AI 配音, 我们再来一起看看国内对标平台 B 站的 AI 原声翻译的效果。

比如直接原声翻译配音《让子弹飞》。

我们还能用它修改小品名场面。

怎么样?是不是非常惊艳,效果甩 YouTube 好几个层次?

它真正做到了原声翻译,并且配音的语气、声调、情绪都非常到位,表现力拉满。

观众的体验丝毫没有减弱,这才是真正的只是换种语言观看同一个视频。我想这也是 YouTube 想实现的效果。

这样的效果也是给小破站拉了一波好评。

图片
图片
图片
图片

但它也并没有做到完美的程度。

比如下面这段视频中,"彦祖亦菲"的翻译是错的,还有单词" results "的发音也出现了问题。

还会出现人声音色不稳定的情况。

但瑕不掩瑜,总体来说,B 站的 AI 配音效果是远强过 YouTube 的。

不仅更牛,而且开源。这次 B 站的含金量无需多言。

图片

关于功能背后的 IndexTTS2 模型,它的具体玩法以及本地部署的一键启动包,大家可以移步我的最新视频查收:

https://www.bilibili.com/video/BV12gYjzxEix

这个模型之前的文章中也已经介绍过,错过的小伙伴可以看看:

离谱,偶然刷到的一个逆天网站+2...

五、最后

随着零样本克隆、情绪自由、时长控制等技术的发展,AI 原声时代真就近在身边了。

期待未来能在 B 站看到更多外国友人的身影,同样希望我们的优质内容也能在 AI 技术的加持下,跨过语言的壁垒,走向世界。

>/ 本期作者:Tashi  & JackCui

>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。

没有评论:

发表评论

AI图片生成视频(WAN2。2-14B-Rapid-AllInOne)工具V1。1,无限时长,速度快支持批量,解压即用!

一 、下载 进入小程序里有。 二 、更新记录 V1.1版本:2025-9-18 1、新增无限时长功能。 V1.0版本:2025-9-6 1、基于WAN2.2-14B-Rapid-AllInOne项目的V10模型,支持图生视频,支持批量,速度很快。 自2016年起,我的公众号已...