AI I024: 颠覆视频编辑！浙大腾讯等发布IVEBench ：首个全面支持指令驱动视频编辑的评测基准套件

AI生成未来知识星球免费开放！

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Yinan Chen等

解读：AI生成未来

项目主页： https://ryanchenyn.github.io/projects/IVEBench
论文： https://arxiv.org/abs/2510.11647
代码： https://github.com/RyanChenYN/IVEBench
数据集： https://huggingface.co/datasets/Coraxor/IVEBench
IVEBench Leaderboard： https://ryanchenyn.github.io/projects/IVEBench/#leaderboard

🔥作者保持对最新Instruction-based视频编辑方法的跟踪，并更新这些方法结果到IVEBench Leaderboard上。欢迎大家使用IVEBench进行视频编辑方法测试！

亮点总结

首个专为指令驱动视频编辑设计的综合 benchmark：本文提出了 IVEBench，一个覆盖最全面、评测维度最完善的现代视频编辑基准套件。它以自然语言指令驱动评测，数据集涵盖7个语义维度、8类编辑任务与35个子任务，为业界与学界提供标准化的视频编辑模型对比平台。
涵盖600条高质量视频的多样化数据库：IVEBench 数据源来自多个开源网站和开源数据集，并通过自动与人工两阶段过滤，确保了高分辨率与清晰度，数据集涵盖7个语义维度和30个主题。视频长度范围从 32 帧到 1024 帧，分为两个子集，可全面测试短视频与长序列视频上模型性能。
全面、丰富的视频编辑任务体系：
IVEBench 精心构建了 8 大类 35 个子类视频编辑任务，在传统编辑任务基础上增加了主体动作、视觉特效、镜头角度与运动等视频专属的编辑类型，并且覆盖不同粒度层级，涉及单主体与多主体等多种编辑指令。
多维度、结合MLLM的系统化评估体系：基于视频质量、指令一致性、与视频保真度三维评估体系，IVEBench 综合使用传统指标与多模态大模型（MLLM）评估，建立了12项定量指标与统一加权总评分机制，实现与人类评价高度一致的自动评估。
SoTA 模型全面测试，并持续更新：IVEBench在主流的指令驱动视频编辑模型上进行全面测试，结果表明：IVEBench 的多维评分能精确反映模型各方面的性能表现。更多更新的指令驱动视频编辑模型的评测也会不断更新。

1. 研究动机

现有基准的局限：主流的视频编辑方法已转向指令驱动型，但当前视频编辑 benchmark 主要针对需要source prompt和target prompt输入的视频编辑类型，难以适用于指令驱动型视频编辑方法。
视频编辑任务局限于图像编辑的传统类型：当前多数视频编辑 benchmark 的任务设计仍停留在从图像编辑迁移而来的"静态变换"范式，例如主体替换、风格修改、色彩调整等任务，这些类型未能充分体现视频编辑特有的时序性、运动性和空间一致性特征。在这些评测中，模型往往只需完成帧级别的视觉变换，而无需理解视频的动态语义及连续帧之间的关联，导致评测结果无法真实反映模型在运动理解、视角变换、相机运动等动态任务上的能力。

2. 关键发现

编辑后视频的质量会同时影响视频保真度：模型输出出现的包括语义渗透、边界模糊、纹理闪烁等伪影不仅降低了每帧图像的质量，也导致了视频保真度显著下降，这些伪影问题需要重点关注。
现有视频编辑模型的任务覆盖度过低：当前主流指令驱动视频编辑模型支持的任务范围过于狭窄，模型往往依赖静态特征变化进行训练，缺乏对主体动作、相机运动、相机视角的显式建模能力。
视频编辑方法在支持分辨率上急需提升：现有指令驱动视频编辑方法通常在512x512分辨率下运行，这远低于现实世界用户内容标准，同时低分辨率也限制了视觉保真度，导致诸如纹理模糊和边缘退化等伪影。

3. 数据与任务设计

多样化视频数据库（600条）

图2. IVEBench的数据获取与处理流程包括: 1) 精选 600 个高质量多样化视频。2) 大模型生成结合人工检查的编辑指令生成流程。

来源：Pexels 、 Mixkit 、 UltraVideo 、 OpenHumanVid
分辨率：720P-8K
帧长：32–1024帧
语义维度：主题、情绪、主体、动作、时间、视角、场景

全面的编辑任务（8类35子类600条编辑指令）包括：风格编辑、属性编辑、主体编辑、数量编辑、主体动作编辑、视觉特效编辑、镜头角度与镜头运动编辑。所有编辑指令均由 Doubao-1.5-pro 生成并经人工审核，确保清晰、均衡且难度覆盖简单到复杂。

4. 实验结果

定量结果：

被评估的方法均表现出较好的帧间一致性。然而，这些方法的总分都不超过 0.7，在指令遵循度、视频保真度和单帧图像质量上都有很大提升空间。

表2. 不同视频编辑方法在IVEBench上的性能比较。数值越高表示性能越好。†表示某些高帧率视频在推理过程中因内存不足问题而失败。‡表示该方法有固定的最大帧数，低于源视频的最大长度。

图4：视频编辑模型的 IVEBench 评估结果：四种视频编辑模型在 12 项 IVEBench 指标上的可视化结果。为便于更清晰的比较，每个维度的结果都进行了归一化处理。

定性结果：

InsV2V 在大多数类别中表现出相对均衡的性能，即使在较长序列中也能保持较高的语义保真度和运动保真度。然而，其保守策略有时会导致编辑不足，从而在指令满意度方面得分较低。AnyV2V 在较简单的风格和属性编辑任务中表现出较强的指令遵从性，但在困难的编辑任务中则表现不佳。VACE并非原生指令驱动视频编辑模型，但实现了合理的时间平滑性和高分辨率输出，然而，其有限的最大帧长度限制了其适用性，并且与原生指令驱动视频编辑模型相比，其在指令遵从性方面的整体表现仍不令人满意。

图6：主流指令驱动视频编辑方法输出对比可视化。这里将视频的第一帧、中间帧和最后一帧拼接起来，以方便比较不同模型在整体视频上的表现。

5. 未来工作

丰富 benchmark 规模与任务类型：后续计划在源视频规模和编辑子类别上进一部扩展数据，提升 benchmark 的覆盖性与挑战性。
指标模型更新升级：计划将指标使用的模型如Qwen2.5-VL 、Grounding DINO等根据最新模型性能进行更新，进一步提高指标的准确性。
建立社区协作的 ELO 评价体系：
后续计划在视频编辑任务上与社区共同开展 ELO 评分收集工作，通过大规模用户偏好评测，持续优化不同模型在视频编辑场景下的相对排名与主观质量评估，从而构建更符合人类感知的 Benchmark 排名体系。

参考文献

[1] IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码免费加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年10月24日星期五

颠覆视频编辑！浙大腾讯等发布IVEBench ：首个全面支持指令驱动视频编辑的评测基准套件