AI I024: AI视频剪辑开源项目video-use 让Claude Code自动剪视频 2个月获1。3万Star

2026年7月2日星期四

AI视频剪辑开源项目video-use 让Claude Code自动剪视频 2个月获1。3万Star

video-use是browser-use团队开源的AI视频剪辑Skill，可安装到Claude Code等Agent中，通过音频转写和按需合成图绕开视频帧处理，大幅降低计算成本。支持口播、Vlog等类型，自带自评估质量兜底。需准备ElevenLabs API key，完全免费开源。

Tags:

AI视频剪辑

开源项目

AI Agent

开发者工具

GitHub热门

做出 browser-use 的那个团队，最近又开源了一个新项目。

就是那个 GitHub 上 10 万+ Star、让 AI 像人一样操作浏览器的明星项目，过去一年最火的 AI Agent 之一。

新项目叫 video-use，装到你的 Claude Code 和 Codex 里面：让 AI 帮你剪视频。

上线才 2 个多月，Star 已经冲到 1.3 万。

我刚刚看登上了最近的开源日榜。用了一下，给大家分享一下感受。

开源项目简介

video-use 是一个 100% 开源的 AI 视频剪辑 Skill。

你把拍摄的原始素材扔进一个文件夹，启动 Claude Code，跟它说一句"剪成发布视频"。

它会自己扫素材、提剪辑方案、等你确认，然后开始干活，最后在同目录的 edit/ 文件夹里给你一个 final.mp4。

开源地址：https://github.com/browser-use/video-use

除了 Claude Code，Codex、Hermes、Openclaw 这些有 shell 权限的 agent 都能跑。

官方说口播、Vlog、教程、旅行、访谈，这些内容类型都能剪。

让 AI 读文本，绕开视频帧

这是整个项目最有意思的地方。

让 AI 剪视频，最朴素的做法是把视频拆成一帧一帧的图片，丢给多模态模型看。

但算一下账：一段 20 分钟的素材，按 30 帧每秒算，加起来 3 万多帧。每帧按 1500 token 算，总共要 4500 万 token。

flat screen monitor

成本先不说，光这个信噪比就烂透了，模型根本抓不住重点。

video-use 换了个思路，分两层。

第一层是音频转写。

用 ElevenLabs 的 Scribe 模型，把整段素材转成带词级时间戳的文本，谁在说话、什么时候停顿、什么时候有笑声和掌声，都能识别。

最后会把所有素材打包成一个约 12KB 的 markdown 文件，作为 LLM 的主要阅读视图。

第二层是按需调用的可视化合成图。

当 LLM 遇到拿不准的地方，它会调用 timeline_view 工具，生成一张胶片条加波形加字幕标签的合成图，只在需要重点决策的时候才用。

这套思路跟 browser-use 一脉相承。

browser-use 当年是给 LLM 结构化的 DOM，让它不用看浏览器截图就能在文本里推理。

video-use 把同一套思路搬到视频上，LLM 推理的输入是文本，绕开了每一帧像素。

12KB 文本加几张合成图，就能干 4500 万 token 帧的活。

比如我试了一下，效果感觉一般。

好的地方是：我录音素材有很多废话、卡顿，它都得去掉了，而且字幕配的很精准。

但是问题也很多，可以发现它并不能恰如其分的为某句话挑选恰当的画面。

而且画质变模糊了，这个挺要命的。这只是我跑一遍出来的结果。

而且指令还是：把素材做成视频。如果有更详细指令，可能会表现不错。

把 AI 剪辑做成工程

我在用的过程中，发现 video-use 最后还有一道工序：自评估。

整个剪辑流水线是这样：转写 → 打包 → LLM 推理 → 生成 EDL（剪辑决策表）→ 渲染 → 自评估。

自评估会在渲染完之后，在每个切点边界回放检查，看视觉跳变、音频爆点、字幕遮挡这些常见问题。

发现问题就修，最多重渲染 3 次。只有通过自评估的版本，才会作为预览给到用户。

SKILL.md 里还列了 12 条规则，把 AI 剪辑从一次性生成变成了有质量兜底的工程流程。

比如：

字幕必须最后应用，不然会被动画遮挡
每个切点都加 30ms 音频淡入淡出，杜绝爆音
切点必须卡在词边界，不能切在词中间
每个切边要预留 30-200ms，因为 Scribe 时间戳会有 50-100ms 漂移
多个动画用并行子 agent 生成，谁也不等谁

如何使用

一键安装：把 Prompt 复制给 Claude Code，让它自己装。

给我安装 https://github.com/browser-use/video-use

剩下的 Agent 自己会读 install.md 处理。

需要准备的就一个 ElevenLabs API key，Scribe 转写要用。去 elevenlabs.io 注册就能拿到。

地址：https://elevenlabs.io/app/developers/api-keys

装好之后，把素材放进一个文件夹，在那个文件夹里启动 claude，告诉它你的剪辑诉求，剩下的它自己处理。

点击下方卡片，关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目，如果你懒得翻文章一个个找，你直接关注微信公众号：逛逛 GitHub ，后台对话聊天就行了：

没有评论:

发表评论

订阅：博文评论 (Atom)