2025年7月30日星期三

我用AI同传干掉了英语发布会,爽。

治好了我的发布会焦虑症

我之前看各种什么OpenAI、Google等等的发布会,还有各种线下的英语演讲的时候,一直有一个痛点。
就是,我听不懂。
大多数的发布会是直播,所以Youtube上也没有原生字幕可以看,线下演讲更是这样,好一点的会务会给你准备同传翻译机或者搞个副屏,放AI字幕。
前几天我去参加WAIC的论坛就有这个同传翻译机。
图片
但是很多的时候,可能并没有这么好的条件,就是啥也没有,需要你自己听。
虽然我不太应该这么理直气壮,因为从小没好好学英语,导致我英语很烂,这确实是我自己不努力造成的= =
但是吧,到现在,因为自己一直在玩AI的原因,最高质量的AI信息和资讯,还是来自于英文世界。
这些AI知识我必须要去学才行。
坦诚的讲,虽然华裔面孔占据AI世界主流,但是主流语言还是英文。
这就导致我每次看发布会或者线下演讲,都只能软件开着字幕进行翻译。
线上看发布会就像这样。
图片
线下我现在就是直接开个飞书妙记,去实时转录+翻译。
图片
其实已经很好用了,对吧,但是字幕类的我自己用的还是不爽,因为这代表着,你感受不到对方的情绪和状态。
同时,你也没办法一心二用。
看发布会,你只能不断的盯着字幕,干不了任何别的事情。
在会场上听演讲也是,最der的就是。
你低头看翻译,你就看不了嘉宾和PPT,你抬头看嘉宾和PPT,你就听不懂他在说什么。。。
线上看直播一样也是这个道理。
这次WAIC现场里听的英文演讲,实在是让我太痛苦了。
当时在现场,我就在想,有没有什么方法,能手搓一个不需要我盯着看的AI同传小产品,来解决我的这些痛点。
回北京以后,说干就干。
大概思路特别简单,我做一个浏览器插件和一个小网页,然后接一个AI同传的API,就搞定了。
首先是同传API。
我基本上把全网都找遍了。
发现做AI同传大模型的也没几个。
讯飞、百度、豆包、腾讯、阿里、Gemini,好像就没了。。。
最后我选了豆包,因为我自己的一些服务都在火山引擎上,字节家的更顺,而且他们豆包同声传译2.0是刚发的,效果也确实是目前最棒的。
图片
端到端模型,延迟大概2~3秒,基本一句话说完,对应的翻译就出来了。
整体翻译质量也是OK的。
还有一个非常屌的能力,是可以在不采集声音样本的情况下复刻说话人的音色,而且就算是多个人一起对话,每一个人都可以保持自己的原色来进行同传,音色极其自然。
这个是传统的所有的机器翻译的模型所不具备的。
因为比如像现在OpenAI、Grok啥的发布会,每次都是好几个人在现场,我其实是需要知道到底是谁说了啥的。
而借助豆包同2.0,这个问题被完美解决。
你也可以直接在这个地方体验一下,可以免费用5分钟,每天可以20次,也就是每天免费100分钟的额度。

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI

图片
而API这块,价格也还OK。
实测下来,1分钟大概消耗了1800左右的Token。
按照官方价格换算,大概就是一分钟3毛钱,很便宜了。
模型有了,接下来,就是搓一个小浏览器插件和网页,然后把模型的API接进去。
这个过程,我本来以为非常轻松,毕竟一个浏览器插件和网页,这玩意vibe coding搞过N个了,没啥难的的,几个按钮,一个设置,能有一个填模型Key的地方,不就完事了吗。

在浏览器里直接抓取正在播放的视频音频,然后调用豆包同2.0的API,实时翻译成中文,再播放出来。

听起来完美,对不对?

但是,噩梦开始了。。。
我真的感觉到了,当时什么叫无知者无畏。

我一开始就卡在了第一步,怎么在浏览器插件里调用豆包同传2.0模型的API?

要知道,这是同传模型,不是普通的那种对话的大模型。

这个API用的是WebSocket协议,还需要在请求头里加认证信息。。。

就是,你平时刷网页,大多是"问一句答一句",就像发个短信一样,你发了个请求,"给我一个网页",服务器回了你,"好的,这是你要的页面"。

之后呢?之后就各忙各的了。

如果你想要更新信息,那就得再发一次请求,再等一次回复。这就是普通的HTTP协议,简单但效率一般。

但有时候,我们不想每次都问一下才有回应,我们想要的是实时互动,比如你跟朋友打电话,不需要每次想说话的时候再拨一次号码。

WebSocket协议就是为这个场景而生的。它更像一通电话,一旦你接通了,双方可以一直不停地实时说话,不用再挂掉重拨。

豆包这个API用的就是WebSocket协议,因为同声传译这个场景,恰好需要你不断地把音频数据发送过去,服务器一边接收一边实时返回翻译后的文字或音频,你一边说,它一边翻译,非常顺畅。

而最大的问题,在于你的插件在浏览器环境里调用WebSocket时,要往请求头里塞认证信息(比如API Key、Token什么的),但浏览器为了安全考虑,不允许插件随便修改WebSocket的请求头。

真的是磕了半天以后,才明白这个坑图片

浏览器插件的环境里,想要往WebSocket的请求头里加认证信息,简直是地狱级别的难度。

更要命的是,我去看了下官方的接口文档,有Python、Java和Go的示例代码,没有JavaScript的版本。

我这种半吊子选手,就更是两眼一抹黑。。。

图片

折腾了两天,各种StackOverflow、GitHub翻了个遍,发现这条路基本上是死路,实现起来非常麻烦。

行吧,只能换思路。。。

既然浏览器环境搞不定API,那搞个曲线救国的方案,浏览器插件负责抓音频,然后把音频数据发给一个本地的Python程序,让这个程序去调用豆包API。

听起来非常合理。

我这就下载了豆包官方的Python示例代码,填了密钥信息,在电脑上跑了一遍,确实能运行。但是看了代码才发现,这玩意确实只是个示例,只能把一个本地的音频文件翻译成另一个语言,然后保存成文件。

不是我想要的实时处理。

更让我头疼的是,怎么从浏览器里把正在播放的Tab的音频流,稳定地传输给本地Python程序?

这个技术难度,比我想象的要高太多了。延迟、音质损失、断连...各种问题一堆堆的。

就在我快要放弃的时候,突然灵光一闪。

我为什么要这么复杂呢?

我直接搞个本地Python程序,然后用"音频重定向"的方法,不就行了吗?

这是一个我之前搞游戏直播的时候学到的方法。。。

音频重定向,说人话,就是给你的电脑戴上一个虚拟的耳机。

平时你电脑上的声音(比如看直播时的演讲声音、视频里的声音)都会通过系统默认的扬声器或耳机直接放出来,你的耳朵听到了,但你的程序却抓不到。

现在呢,我们给电脑装一个虚拟设备,就相当于再给它接一根虚拟的耳机线。

这根虚拟的耳机线它表面上看是个耳机,但实际上的作用是把你电脑里播放的所有声音拷贝一份出来,送给另一个程序去处理。

于是,我在电脑上装了一个叫VB-CABLE的虚拟音频设备。

图片

然后,当我在浏览器里看视频的时候,我把浏览器的音频输出切换到这个虚拟扬声器。

图片

这样,视频的声音就会进入这个虚拟设备,而我的真正的扬声器是听不到任何声音的。

接下来,我用AI修改了一下刚刚下载的程序,实现把这个虚拟扬声器当成麦克风来监听。

图片

这样,Python程序就能精确地捕获到浏览器播放的英文音频了。

然后程序调用豆包的同传模2.0,把英文音频实时翻译成中文,再通过我的真正扬声器播放出来。

整个流程就是:浏览器视频 → 虚拟扬声器 → Python程序 → 豆包API → 真扬声器

流程清晰,逻辑简单,没有复杂的数据传输,也没有浏览器环境的限制。

最关键的是,效果特别棒。

我听不到任何英文原声的干扰,只能听到清晰的中文翻译。就像真的有个同传在我耳边翻译一样。

为了方便使用,我还搞了个简单的Web界面,可以启停翻译功能,还能实时看到API返回的原文和译文。

图片
图片

第一次成功测试的时候,我激动得差点跳起来。

我打开了一个英文的AI发布会录播,然后启动我的程序。当那个陌生的英语声音消失,取而代之的是流畅的中文翻译时,我真的有种终于把这个破事给搞定了的成就感。

当你排除千难万险,解决一个难题,把一个程序跑通的时候,那种爽感,就像你在打只狼,推一个卡了好几天的BOSS,血条只剩一丝的时候手都在抖,打出最后那一下平A,BOSS倒地但你还站着的那一瞬间,大脑一片空白,随即巨大的多巴胺如潮水般涌来。

这种爽感,带着一点劫后余生的庆幸,一点自我突破的自豪,还有一点征服世界的豪迈,让你忍不住想站起来仰天长啸。

终于搞定了!

虽然只是一个同传的小东西而已。

我终于可以一边刷着播客,一边听着优雅的中文翻译,不用再低头看字幕了。

那种感觉,就像是给自己找了一个随叫随到的高级翻译。

而且不止是一个人的音色,如果是5个人,那真的就可以0样本复刻5个人的音色来给你翻译,每一个人,都有自己的声线,你只需要听,就可以区分出所有的信息。

折腾了这么久,总算是把自己的这个痛点给解决了。

一个小白,能借助AI,徒手做出自己想要的东西,这感觉,还是很酷。

至于线下的场景,反而简单很多了,因为就调用一下麦克风做传输就行。

我本来想自己开发一个H5网页的,一想,豆包已经做了一个体验版本的,有没有手机版的?

就搜了一下。。。

发现,还真有。。。

图片

点进去以后,免费体验。

而且10分钟上限。

图片

线下完全就可以直接用了。

最后,我想表达一下我对于同传这个行业,还有对译员的观点。

我是一个纯粹的外行,我做这个小东西,完全不是为了要去挑战或者取代那些真正专业的口译同传们。

会议现场,真正的译员们在大会现场,在同传和长交传领域反复磨炼,才有那种举重若轻、炉火纯青的能力,这种水准,目前任何AI都难以企及。

但技术的意义从来不止于取代。

更重要的是,它让那些像我一样普通而平凡的人,因为AI的发展,让我可以用低廉的价格,打破语言障碍,这是一个非常棒的事。

不再局限于语言的高墙,让每个人都能在更平等、更自由的条件下,找到自己想要的答案。

AI本就是为我们每一个人服务的。

它也本身就是个性的。

任何我们觉得不满意不爽的事情。

你都可以尝试着,用AI再做一遍。

然后,你就会发现。

一个更广阔的世界。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克、dongyi

>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com

没有评论:

发表评论

最新[爆款视频]扣子(coze)工作流 :快速产出极具感情的历史人物短视频,保姆级教程

点击上方卡片关注 不要错过精彩文章 🎉 读完这篇文章,别忘记给舰长点一个关注!舰长的智能体搭建文章,不仅是节点的构建,也有思路的分享。智能体搭建最重要的就是思路。最希望,能给大家带来不一样的搭建思路和方法。  点一点上方的🔵蓝色小字关注,你的支持是我最大的动力!🙏谢谢啦...