2025年4月13日星期日

用 Cursor 搞了个AI字幕校对的工具,处理剪映字幕识别不准确的问题

用剪映的字幕自动识别总是会有很多错别字的问题,剪映自带的导入内容匹配音频又会出现一段文字堆在一起的问题,尤其使用HeyGem数字人,动辄好几分钟的音频,一句句的检查修改实在有些崩溃,于是打算做一个AI字幕校对工具,本来以为分分钟就搞定的时候,没想到一搞就是一天。

最开始以为这么简单的应用随便找个上下文和输出Token高的模型就行了,就从硅基流动找了个免费的智普9B模型,没想到竟然不能很好的完成任务,不能完整的匹配原先字幕的时间点。于是就换了DeepSeek R1,这个竟然一直不返回信息,可能因为内容比较多,又是非流式输出,时间久了貌似是断开了链接。

然后只好换个平台试试,换到了火山引擎的,又遇到了调用失败的问题,主要是因为Cursor给写的api接口是通用的接口,而火山需要先选择指定的模型开通,还需要使用指定地区节点的api接口连接,比如:https://ark.cn-beijing.volces.com/api/v3/chat/completions

所以在Cursor开发调用api的应用的时候,最好给他官方开发文档的内容做参考,不要完全指望他给写。另外AI应用,最好在各家的大模型广场先测试下对应的模型是否能够完成任务。然后就在能够准确完成任务的模型里面选一款性价比高的就可以了。比如我就用的豆包1.5pro的模型,相对 DeepSeek R1 还是能便宜不少的。

下面就分享下这工具的用法。
网址:https://www.subtitle-edit.com/

1、从剪映的音频上点右键就可以识别字幕歌词,然后导出的时候选择导出SRT格式的。

2、打开网站,在SRT处上传剪映导出的SRT字幕文件,TXT处上传自己原先的口播稿

3、点击开始校对,就等待大模型返回信息即可,因为是非流式输出,所以得等完全生成好了才会显示信息,所以内容多的话可能会有些慢。

4、生成完成还可以做一些简单的修改,然后下载SRT文件,再重新导入到剪映就可以了。

尴尬之处发现字幕识别的功能现在竟然也是剪映的SVIP才能用了,感觉这工具的实用性大打折扣,不过常做视频剪辑的,剪映的VIP基本是必备的,感觉现在剪映是个超级全能工具,我有时候甚至都用它设计一些简单的图片。而且各种AI功能,省掉之前各个小工具,比如音频分离UVR、视频高清化TopazVideoAI,生成图片音乐素材等等等,一个剪映就够了。

另一个尴尬之处是,做的这第一个AI网站就是个超级消耗Token的,一般如果是中文文字,100个中文字才需要大约60个Tokens,但是这种带格式的字幕,每个符号、字符都占1个Token,而且输入输出都带着格式,所以这个Token消耗量。。。

再就是这个能力在各种聊天工具里面基本都比较容易实现,只需要上传原稿、字幕内容,给个简单的提示词就可以,只不过是不能直接给出.SRT格式的文件而已。

这么一想我这第一个AI网站貌似不太会成功的样子。。。。

没有评论:

发表评论

爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24。6%,学界惊了

点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 转载自:新智元 如有侵权,联系删稿 今早的一篇爆火论文,彻底颠覆了人们对「强化学习」的传统认知。 仅用随机奖励,甚至是错误答案,也能让AI在数学推理中...