2026年7月2日星期四

AI视频剪辑开源项目video-use 让Claude Code自动剪视频 2个月获1。3万Star

video-use是browser-use团队开源的AI视频剪辑Skill,可安装到Claude Code等Agent中,通过音频转写和按需合成图绕开视频帧处理,大幅降低计算成本。支持口播、Vlog等类型,自带自评估质量兜底。需准备ElevenLabs API key,完全免费开源。

Tags:

做出 browser-use 的那个团队,最近又开源了一个新项目。

就是那个 GitHub 上 10 万+ Star、让 AI 像人一样操作浏览器的明星项目,过去一年最火的 AI Agent 之一。

图片

新项目叫 video-use,装到你的 Claude Code 和 Codex 里面:让 AI 帮你剪视频。

上线才 2 个多月,Star 已经冲到 1.3 万。

我刚刚看登上了最近的开源日榜。用了一下,给大家分享一下感受。

图片

01

开源项目简介

video-use 是一个 100% 开源的 AI 视频剪辑 Skill。

你把拍摄的原始素材扔进一个文件夹,启动 Claude Code,跟它说一句"剪成发布视频"。

它会自己扫素材、提剪辑方案、等你确认,然后开始干活,最后在同目录的 edit/ 文件夹里给你一个 final.mp4

图片

开源地址:https://github.com/browser-use/video-use

除了 Claude Code,Codex、Hermes、Openclaw 这些有 shell 权限的 agent 都能跑。

官方说 口播、Vlog、教程、旅行、访谈,这些内容类型都能剪。

video-use

02

让 AI 读文本,绕开视频帧

这是整个项目最有意思的地方。

让 AI 剪视频,最朴素的做法是把视频拆成一帧一帧的图片,丢给多模态模型看。

但算一下账:一段 20 分钟的素材,按 30 帧每秒算,加起来 3 万多帧。每帧按 1500 token 算,总共要 4500 万 token。

flat screen monitor

成本先不说,光这个信噪比就烂透了,模型根本抓不住重点。

video-use 换了个思路,分两层。

第一层是音频转写。

用 ElevenLabs 的 Scribe 模型,把整段素材转成带词级时间戳的文本,谁在说话、什么时候停顿、什么时候有笑声和掌声,都能识别。

最后会把所有素材打包成一个约 12KB 的 markdown 文件,作为 LLM 的主要阅读视图。

第二层是按需调用的可视化合成图。

当 LLM 遇到拿不准的地方,它会调用 timeline_view 工具,生成一张胶片条加波形加字幕标签的合成图,只在需要重点决策的时候才用。

图片

这套思路跟 browser-use 一脉相承。

browser-use 当年是给 LLM 结构化的 DOM,让它不用看浏览器截图就能在文本里推理。

video-use 把同一套思路搬到视频上,LLM 推理的输入是文本,绕开了每一帧像素。

12KB 文本加几张合成图,就能干 4500 万 token 帧的活。

比如我试了一下,效果感觉一般。

好的地方是:我录音素材有很多废话、卡顿,它都得去掉了,而且字幕配的很精准。

但是问题也很多,可以发现它并不能恰如其分的为某句话挑选恰当的画面。

而且画质变模糊了,这个挺要命的。这只是我跑一遍出来的结果。

而且指令还是:把素材做成视频。如果有更详细指令,可能会表现不错。

03

把 AI 剪辑做成工程

我在用的过程中,发现 video-use 最后还有一道工序:自评估。

整个剪辑流水线是这样:转写 → 打包 → LLM 推理 → 生成 EDL(剪辑决策表)→ 渲染 → 自评估。

自评估会在渲染完之后,在每个切点边界回放检查,看视觉跳变、音频爆点、字幕遮挡这些常见问题。

发现问题就修,最多重渲染 3 次。只有通过自评估的版本,才会作为预览给到用户。

SKILL.md 里还列了 12 条规则,把 AI 剪辑从一次性生成变成了有质量兜底的工程流程。

比如:

  • 字幕必须最后应用,不然会被动画遮挡
  • 每个切点都加 30ms 音频淡入淡出,杜绝爆音
  • 切点必须卡在词边界,不能切在词中间
  • 每个切边要预留 30-200ms,因为 Scribe 时间戳会有 50-100ms 漂移
  • 多个动画用并行子 agent 生成,谁也不等谁

04

如何使用

一键安装:把 Prompt 复制给 Claude Code,让它自己装。

给我安装 https://github.com/browser-use/video-use

剩下的 Agent 自己会读 install.md 处理。

需要准备的就一个 ElevenLabs API key,Scribe 转写要用。去 elevenlabs.io 注册就能拿到。

图片
地址:https://elevenlabs.io/app/developers/api-keys

装好之后,把素材放进一个文件夹,在那个文件夹里启动 claude,告诉它你的剪辑诉求,剩下的它自己处理。

05

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

没有评论:

发表评论

Krea 2 + Qianwen HDR : Elevate AI Images to Premium Aesthetics

Krea 2 and Qianwen HDR workflow for high-end AI image aesthetics. Sign up with invite code rh-v1542 to receive 1000 RH币. Access the workflow...