2025年10月24日星期五

颠覆视频编辑!浙大腾讯等发布IVEBench :首个全面支持指令驱动视频编辑的评测基准套件

AI生成未来知识星球免费开放!

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Yinan Chen

解读:AI生成未来
图片
图片
  • 项目主页: https://ryanchenyn.github.io/projects/IVEBench
  • 论文: https://arxiv.org/abs/2510.11647
  • 代码: https://github.com/RyanChenYN/IVEBench
  • 数据集: https://huggingface.co/datasets/Coraxor/IVEBench 
  • IVEBench Leaderboard: https://ryanchenyn.github.io/projects/IVEBench/#leaderboard

🔥作者保持对最新Instruction-based视频编辑方法的跟踪,并更新这些方法结果到IVEBench Leaderboard上。欢迎大家使用IVEBench进行视频编辑方法测试!

亮点总结

图1:IVEBench基本概述
图1:IVEBench基本概述
  1. 首个专为指令驱动视频编辑设计的综合 benchmark:本文提出了 IVEBench,一个覆盖最全面、评测维度最完善的现代视频编辑基准套件。它以自然语言指令驱动评测,数据集涵盖7个语义维度8类编辑任务35个子任务,为业界与学界提供标准化的视频编辑模型对比平台。

  2. 涵盖600条高质量视频的多样化数据库:IVEBench 数据源来自多个开源网站和开源数据集,并通过自动与人工两阶段过滤,确保了高分辨率与清晰度,数据集涵盖7个语义维度和30个主题。视频长度范围从 32 帧到 1024 帧,分为两个子集,可全面测试短视频与长序列视频上模型性能。

  3. 全面、丰富的视频编辑任务体系:

    IVEBench 精心构建了 8 大类 35 个子类视频编辑任务,在传统编辑任务基础上增加了主体动作、视觉特效、镜头角度与运动等视频专属的编辑类型,并且覆盖不同粒度层级,涉及单主体与多主体等多种编辑指令。

  4. 多维度、结合MLLM的系统化评估体系:基于视频质量指令一致性、与视频保真度三维评估体系,IVEBench 综合使用传统指标与多模态大模型(MLLM)评估,建立了12项定量指标与统一加权总评分机制,实现与人类评价高度一致的自动评估。

  5. SoTA 模型全面测试,并持续更新:IVEBench在主流的指令驱动视频编辑模型上进行全面测试,结果表明:IVEBench 的多维评分能精确反映模型各方面的性能表现。更多更新的指令驱动视频编辑模型的评测也会不断更新。


1. 研究动机

  • 现有基准的局限:主流的视频编辑方法已转向指令驱动型,但当前视频编辑 benchmark 主要针对需要source prompt和target prompt输入的视频编辑类型,难以适用于指令驱动型视频编辑方法。
  • 视频编辑任务局限于图像编辑的传统类型:当前多数视频编辑 benchmark 的任务设计仍停留在从图像编辑迁移而来的"静态变换"范式,例如主体替换、风格修改、色彩调整等任务,这些类型未能充分体现视频编辑特有的时序性、运动性和空间一致性特征。在这些评测中,模型往往只需完成帧级别的视觉变换,而无需理解视频的动态语义及连续帧之间的关联,导致评测结果无法真实反映模型在运动理解、视角变换、相机运动等动态任务上的能力。

2. 关键发现

  1. 编辑后视频的质量会同时影响视频保真度:模型输出出现的包括语义渗透、边界模糊、纹理闪烁等伪影不仅降低了每帧图像的质量,也导致了视频保真度显著下降,这些伪影问题需要重点关注。
  2. 现有视频编辑模型的任务覆盖度过低:当前主流指令驱动视频编辑模型支持的任务范围过于狭窄,模型往往依赖静态特征变化进行训练,缺乏对主体动作、相机运动、相机视角的显式建模能力。
  3. 视频编辑方法在支持分辨率上急需提升:现有指令驱动视频编辑方法通常在512x512分辨率下运行,这远低于现实世界用户内容标准, 同时低分辨率也限制了视觉保真度,导致诸如纹理模糊和边缘退化等伪影。

3. 数据与任务设计

  1. 多样化视频数据库(600条)
图2. IVEBench的数据获取与处理流程包括: 1) 精选 600 个高质量多样化视频。2) 大模型生成结合人工检查的编辑指令生成流程。
图2. IVEBench的数据获取与处理流程包括: 1) 精选 600 个高质量多样化视频。2) 大模型生成结合人工检查的编辑指令生成流程。
  • 来源:Pexels 、 Mixkit 、 UltraVideo 、 OpenHumanVid
  • 分辨率:720P-8K
  • 帧长:32–1024帧
  • 语义维度:主题、情绪、主体、动作、时间、视角、场景
  1. 全面的编辑任务(8类35子类600条编辑指令)包括:风格编辑、属性编辑、主体编辑、数量编辑、主体动作编辑、视觉特效编辑、镜头角度与镜头运动编辑。 所有编辑指令均由 Doubao-1.5-pro 生成并经人工审核,确保清晰、均衡且难度覆盖简单到复杂。
图3. IVEBench的统计分布。
图3. IVEBench的统计分布。

4. 实验结果

定量结果:

被评估的方法均表现出较好的帧间一致性。然而,这些方法的总分都不超过 0.7,在指令遵循度、视频保真度和单帧图像质量上都有很大提升空间。

表2. 不同视频编辑方法在IVEBench上的性能比较。数值越高表示性能越好。†表示某些高帧率视频在推理过程中因内存不足问题而失败。‡表示该方法有固定的最大帧数,低于源视频的最大长度。
表2. 不同视频编辑方法在IVEBench上的性能比较。数值越高表示性能越好。†表示某些高帧率视频在推理过程中因内存不足问题而失败。‡表示该方法有固定的最大帧数,低于源视频的最大长度。
图4:视频编辑模型的 IVEBench 评估结果:四种视频编辑模型在 12 项 IVEBench 指标上的可视化结果。为便于更清晰的比较,每个维度的结果都进行了归一化处理。
图4:视频编辑模型的 IVEBench 评估结果:四种视频编辑模型在 12 项 IVEBench 指标上的可视化结果。为便于更清晰的比较,每个维度的结果都进行了归一化处理。

定性结果:

InsV2V 在大多数类别中表现出相对均衡的性能,即使在较长序列中也能保持较高的语义保真度和运动保真度。然而,其保守策略有时会导致编辑不足,从而在指令满意度方面得分较低。AnyV2V 在较简单的风格和属性编辑任务中表现出较强的指令遵从性,但在困难的编辑任务中则表现不佳。VACE并非原生指令驱动视频编辑模型,但实现了合理的时间平滑性和高分辨率输出,然而,其有限的最大帧长度限制了其适用性,并且与原生指令驱动视频编辑模型相比,其在指令遵从性方面的整体表现仍不令人满意。

图5:主流指令驱动视频编辑方法的定性比较。
图5:主流指令驱动视频编辑方法的定性比较。
图6:主流指令驱动视频编辑方法输出对比可视化。这里将视频的第一帧、中间帧和最后一帧拼接起来,以方便比较不同模型在整体视频上的表现。
图6:主流指令驱动视频编辑方法输出对比可视化。这里将视频的第一帧、中间帧和最后一帧拼接起来,以方便比较不同模型在整体视频上的表现。

5. 未来工作

  1. 丰富 benchmark 规模与任务类型:后续计划在源视频规模和编辑子类别上进一部扩展数据,提升 benchmark 的覆盖性与挑战性。

  2. 指标模型更新升级:计划将指标使用的模型如Qwen2.5-VL 、Grounding DINO等根据最新模型性能进行更新,进一步提高指标的准确性。

  3. 建立社区协作的 ELO 评价体系:

    后续计划在视频编辑任务上与社区共同开展 ELO 评分收集工作,通过大规模用户偏好评测,持续优化不同模型在视频编辑场景下的相对排名与主观质量评估,从而构建更符合人类感知的 Benchmark 排名体系。

参考文献

[1] IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码免费加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

开源!基于AI的客户关系管理CRM系统

基于AI的客户关系管理CRM系统 源代码 https://www.gitpp.com/ruoyiwms/project-ai-crm 项目概述 本项目是一个基于AI的客户关系管理(CRM)系统,采用B端网站设计风格,提供完整的销售管理、营销管理和系统管理功能,并集成了先进的A...