video-use是browser-use团队开源的AI视频剪辑Skill,可安装到Claude Code等Agent中,通过音频转写和按需合成图绕开视频帧处理,大幅降低计算成本。支持口播、Vlog等类型,自带自评估质量兜底。需准备ElevenLabs API key,完全免费开源。
Tags:
做出 browser-use 的那个团队,最近又开源了一个新项目。
就是那个 GitHub 上 10 万+ Star、让 AI 像人一样操作浏览器的明星项目,过去一年最火的 AI Agent 之一。
新项目叫 video-use,装到你的 Claude Code 和 Codex 里面:让 AI 帮你剪视频。
上线才 2 个多月,Star 已经冲到 1.3 万。
我刚刚看登上了最近的开源日榜。用了一下,给大家分享一下感受。
01
开源项目简介
video-use 是一个 100% 开源的 AI 视频剪辑 Skill。
你把拍摄的原始素材扔进一个文件夹,启动 Claude Code,跟它说一句"剪成发布视频"。
它会自己扫素材、提剪辑方案、等你确认,然后开始干活,最后在同目录的 edit/ 文件夹里给你一个 final.mp4。
开源地址:https://github.com/browser-use/video-use除了 Claude Code,Codex、Hermes、Openclaw 这些有 shell 权限的 agent 都能跑。
官方说 口播、Vlog、教程、旅行、访谈,这些内容类型都能剪。
02
让 AI 读文本,绕开视频帧
这是整个项目最有意思的地方。
让 AI 剪视频,最朴素的做法是把视频拆成一帧一帧的图片,丢给多模态模型看。
但算一下账:一段 20 分钟的素材,按 30 帧每秒算,加起来 3 万多帧。每帧按 1500 token 算,总共要 4500 万 token。
成本先不说,光这个信噪比就烂透了,模型根本抓不住重点。
video-use 换了个思路,分两层。
第一层是音频转写。
用 ElevenLabs 的 Scribe 模型,把整段素材转成带词级时间戳的文本,谁在说话、什么时候停顿、什么时候有笑声和掌声,都能识别。
最后会把所有素材打包成一个约 12KB 的 markdown 文件,作为 LLM 的主要阅读视图。
第二层是按需调用的可视化合成图。
当 LLM 遇到拿不准的地方,它会调用 timeline_view 工具,生成一张胶片条加波形加字幕标签的合成图,只在需要重点决策的时候才用。
这套思路跟 browser-use 一脉相承。
browser-use 当年是给 LLM 结构化的 DOM,让它不用看浏览器截图就能在文本里推理。
video-use 把同一套思路搬到视频上,LLM 推理的输入是文本,绕开了每一帧像素。
12KB 文本加几张合成图,就能干 4500 万 token 帧的活。
比如我试了一下,效果感觉一般。
好的地方是:我录音素材有很多废话、卡顿,它都得去掉了,而且字幕配的很精准。
但是问题也很多,可以发现它并不能恰如其分的为某句话挑选恰当的画面。
而且画质变模糊了,这个挺要命的。这只是我跑一遍出来的结果。
而且指令还是:把素材做成视频。如果有更详细指令,可能会表现不错。
03
把 AI 剪辑做成工程
我在用的过程中,发现 video-use 最后还有一道工序:自评估。
整个剪辑流水线是这样:转写 → 打包 → LLM 推理 → 生成 EDL(剪辑决策表)→ 渲染 → 自评估。
自评估会在渲染完之后,在每个切点边界回放检查,看视觉跳变、音频爆点、字幕遮挡这些常见问题。
发现问题就修,最多重渲染 3 次。只有通过自评估的版本,才会作为预览给到用户。
SKILL.md 里还列了 12 条规则,把 AI 剪辑从一次性生成变成了有质量兜底的工程流程。
比如:
字幕必须最后应用,不然会被动画遮挡 每个切点都加 30ms 音频淡入淡出,杜绝爆音 切点必须卡在词边界,不能切在词中间 每个切边要预留 30-200ms,因为 Scribe 时间戳会有 50-100ms 漂移 多个动画用并行子 agent 生成,谁也不等谁
04
如何使用
一键安装:把 Prompt 复制给 Claude Code,让它自己装。
给我安装 https://github.com/browser-use/video-use
剩下的 Agent 自己会读 install.md 处理。
需要准备的就一个 ElevenLabs API key,Scribe 转写要用。去 elevenlabs.io 注册就能拿到。
地址:https://elevenlabs.io/app/developers/api-keys装好之后,把素材放进一个文件夹,在那个文件夹里启动 claude,告诉它你的剪辑诉求,剩下的它自己处理。
05
点击下方卡片,关注逛逛 GitHub
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:
没有评论:
发表评论