AI生成未来知识星球免费开放!
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Yinan Chen等
项目主页: https://ryanchenyn.github.io/projects/IVEBench 论文: https://arxiv.org/abs/2510.11647 代码: https://github.com/RyanChenYN/IVEBench 数据集: https://huggingface.co/datasets/Coraxor/IVEBench IVEBench Leaderboard: https://ryanchenyn.github.io/projects/IVEBench/#leaderboard
🔥作者保持对最新Instruction-based视频编辑方法的跟踪,并更新这些方法结果到IVEBench Leaderboard上。欢迎大家使用IVEBench进行视频编辑方法测试!
亮点总结
首个专为指令驱动视频编辑设计的综合 benchmark:本文提出了 IVEBench,一个覆盖最全面、评测维度最完善的现代视频编辑基准套件。它以自然语言指令驱动评测,数据集涵盖7个语义维度、8类编辑任务与35个子任务,为业界与学界提供标准化的视频编辑模型对比平台。
涵盖600条高质量视频的多样化数据库:IVEBench 数据源来自多个开源网站和开源数据集,并通过自动与人工两阶段过滤,确保了高分辨率与清晰度,数据集涵盖7个语义维度和30个主题。视频长度范围从 32 帧到 1024 帧,分为两个子集,可全面测试短视频与长序列视频上模型性能。
全面、丰富的视频编辑任务体系:
IVEBench 精心构建了 8 大类 35 个子类视频编辑任务,在传统编辑任务基础上增加了主体动作、视觉特效、镜头角度与运动等视频专属的编辑类型,并且覆盖不同粒度层级,涉及单主体与多主体等多种编辑指令。
多维度、结合MLLM的系统化评估体系:基于视频质量、指令一致性、与视频保真度三维评估体系,IVEBench 综合使用传统指标与多模态大模型(MLLM)评估,建立了12项定量指标与统一加权总评分机制,实现与人类评价高度一致的自动评估。
SoTA 模型全面测试,并持续更新:IVEBench在主流的指令驱动视频编辑模型上进行全面测试,结果表明:IVEBench 的多维评分能精确反映模型各方面的性能表现。更多更新的指令驱动视频编辑模型的评测也会不断更新。
1. 研究动机
现有基准的局限:主流的视频编辑方法已转向指令驱动型,但当前视频编辑 benchmark 主要针对需要source prompt和target prompt输入的视频编辑类型,难以适用于指令驱动型视频编辑方法。 视频编辑任务局限于图像编辑的传统类型:当前多数视频编辑 benchmark 的任务设计仍停留在从图像编辑迁移而来的"静态变换"范式,例如主体替换、风格修改、色彩调整等任务,这些类型未能充分体现视频编辑特有的时序性、运动性和空间一致性特征。在这些评测中,模型往往只需完成帧级别的视觉变换,而无需理解视频的动态语义及连续帧之间的关联,导致评测结果无法真实反映模型在运动理解、视角变换、相机运动等动态任务上的能力。
2. 关键发现
编辑后视频的质量会同时影响视频保真度:模型输出出现的包括语义渗透、边界模糊、纹理闪烁等伪影不仅降低了每帧图像的质量,也导致了视频保真度显著下降,这些伪影问题需要重点关注。 现有视频编辑模型的任务覆盖度过低:当前主流指令驱动视频编辑模型支持的任务范围过于狭窄,模型往往依赖静态特征变化进行训练,缺乏对主体动作、相机运动、相机视角的显式建模能力。 视频编辑方法在支持分辨率上急需提升:现有指令驱动视频编辑方法通常在512x512分辨率下运行,这远低于现实世界用户内容标准, 同时低分辨率也限制了视觉保真度,导致诸如纹理模糊和边缘退化等伪影。
3. 数据与任务设计
多样化视频数据库(600条)
来源:Pexels 、 Mixkit 、 UltraVideo 、 OpenHumanVid 分辨率:720P-8K 帧长:32–1024帧 语义维度:主题、情绪、主体、动作、时间、视角、场景
全面的编辑任务(8类35子类600条编辑指令)包括:风格编辑、属性编辑、主体编辑、数量编辑、主体动作编辑、视觉特效编辑、镜头角度与镜头运动编辑。 所有编辑指令均由 Doubao-1.5-pro 生成并经人工审核,确保清晰、均衡且难度覆盖简单到复杂。
4. 实验结果
定量结果:
被评估的方法均表现出较好的帧间一致性。然而,这些方法的总分都不超过 0.7,在指令遵循度、视频保真度和单帧图像质量上都有很大提升空间。
定性结果:
InsV2V 在大多数类别中表现出相对均衡的性能,即使在较长序列中也能保持较高的语义保真度和运动保真度。然而,其保守策略有时会导致编辑不足,从而在指令满意度方面得分较低。AnyV2V 在较简单的风格和属性编辑任务中表现出较强的指令遵从性,但在困难的编辑任务中则表现不佳。VACE并非原生指令驱动视频编辑模型,但实现了合理的时间平滑性和高分辨率输出,然而,其有限的最大帧长度限制了其适用性,并且与原生指令驱动视频编辑模型相比,其在指令遵从性方面的整体表现仍不令人满意。
5. 未来工作
丰富 benchmark 规模与任务类型:后续计划在源视频规模和编辑子类别上进一部扩展数据,提升 benchmark 的覆盖性与挑战性。
指标模型更新升级:计划将指标使用的模型如Qwen2.5-VL 、Grounding DINO等根据最新模型性能进行更新,进一步提高指标的准确性。
建立社区协作的 ELO 评价体系:
后续计划在视频编辑任务上与社区共同开展 ELO 评分收集工作,通过大规模用户偏好评测,持续优化不同模型在视频编辑场景下的相对排名与主观质量评估,从而构建更符合人类感知的 Benchmark 排名体系。
参考文献
[1] IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论