AI I024: 史诗级突破！一个模型让你秒变PS大神，字节最新InstructX仅用“看图”就学会了剪视频

AI生成未来知识星球免费开放！

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Chong Mou等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2510.08485
项目链接：https://mc-e.github.io/project/InstructX/
Git链接：https://github.com/MC-E/InstructX?tab=readme-ov-file

亮点直击
InstructX，一个在单模型中执行图像和视频编辑的统一框架。研究分析了 MLLM 与扩散模型的集成，并为未来的研究提供了新的见解。
讨论了一种简单而有效的方法，通过图像训练数据扩展零样本视频编辑能力。该设计使InstructX能够处理比现有开源或闭源方法更广泛的任务。
大量实验证明，InstructX在各种图像和视频编辑任务中达到了SOTA性能。

总结速览

效果秀

添加和删除任务

混合编辑任务

替换任务

风格转换任务

基于参考的编辑任务

解决的问题

MLLM 与扩散模型融合的设计缺乏系统研究：现有研究多关注性能提升，但缺乏对多模态大语言模型（MLLM）在编辑任务中作用机制与设计选择的深入分析。
统一图像与视频编辑的困难：由于视频数据稀缺且标注成本高，如何在统一框架下同时实现图像与视频编辑仍是未解决的问题。
MLLM 仅被当作特征提取器的问题：当前方法往往将 MLLM 的输出交由大型连接器（如 transformer）或扩散模型处理，忽视了其强大的理解与推理能力。

提出的方案

InstructX：一个用于 统一图像与视频编辑 的多模态框架。核心思想是将 MLLM 与扩散模型深度融合，使编辑过程主要在 MLLM 内部完成，而非依赖外部大型连接器。

应用的技术

外部扩散模型结构：采用 MLLM 作为理解与指令解析核心，扩散模型作为视觉生成解码器。
特征融合策略研究：

比较了直接使用 MLLM 隐层特征与压缩为 meta-query 特征的不同策略；
探讨了连接模块规模（大型 transformer vs 小型 MLP）的影响；
评估了是否需要对 MLLM 进行微调。

模态特定特征引入：通过加入 modality-specific MLLM features，实现图像与视频任务的统一建模。
跨模态迁移训练策略：使用高质量的图像编辑数据（如来自 GPT-4o 等模型生成的数据）辅助训练，在无显式视频监督下 让模型获得视频编辑能力。

达到的效果

统一图像与视频编辑任务：模型在单一架构下即可处理多种编辑任务（图像与视频）。
图像编辑能力迁移至视频编辑：仅通过图像数据训练，模型便能在视频编辑中表现出涌现的编辑能力。
数据依赖显著降低：有效缓解高质量视频数据稀缺问题。
性能达到 SOTA（State-of-the-Art）：在多种图像与视频编辑任务上实现了最先进水平的效果。

方法

概述

InstructX 的概览如下图 2 所示。通过利用 MLLM 的理解能力构建一个用于图像和视频编辑的统一架构。采用一个多模态理解模型，即 QWen2.5-VL-3B，用于嵌入编辑指令和源图像/视频。受 MetaQuery 的启发，在 MLLM 输入序列中附加一组可学习查询，以提取编辑信息，并仅保留来自 MLLM 输出的 meta-query 特征。Wan2.1-14B 被用作编辑输出的解码器。来自 MLLM 的查询被输入到一个两层 MLP 连接器中，随后用于替换 DiT 模型中的文本嵌入。为了增强编辑结果与源图像/视频之间的一致性，将原始图像/视频的 VAE 编码添加到带噪声的潜变量中。对于涉及参考图像的任务，将参考图像的 VAE 特征沿序列维度与带噪声的潜变量进行拼接。

架构选择

不同的选择。将理解模型与生成模型集成会暴露出许多设计选择，而这些选择在以往工作中往往缺乏经验性论证。研究者们对这些结构设计选择进行了全面研究。在下图 3 中，比较了几种指令编辑架构：（a）指令由原生的 T5 文本编码器编码并直接输入扩散模型，即仅扩散设置。（b）MLLM 的最后隐藏状态由 QFormer 编码为固定长度表示（即 256 个 token），然后输入 DiT。（c）MetaQuery 结构使用可学习查询从 MLLM 中提取编辑信息，并采用大型连接器连接 MLLM 与 DiT。（d）本工作采用的架构。它使用与 MetaQuery 相同的可学习查询，对 MLLM 进行 LoRA 微调，并采用一个简单的两层 MLP 作为 MLLM 与 DiT 之间的连接器。

比较。从两个方面验证不同结构选择的性能。(1) 特征对齐能力。由于 MLLM 文本空间与扩散生成空间之间存在差距，先前的工作通常引入一个预训练阶段以对齐这两个空间。在此，冻结 DiT 并在图像编辑任务上训练不同的设计。下图4 左侧显示，仅依赖大规模连接器或可学习查询机制进行理解与生成的对齐会导致收敛较慢。通过 LoRA 部分引入 MLLM 参与特征对齐可以加速收敛。请注意，T5 特征已与 DiT 对齐，因此未参与此阶段。在完成对齐阶段后，我们解冻 DiT 继续训练，并在 ImgEdit-Bench 上评估各种方法的性能。图 4 右侧也展示了本文设计选择的优势。

其他细节。为了在统一架构中建模图像和视频并区分这两种模态，为每种模态引入了单独的可学习查询集：图像输入使用 256 个查询，视频输入使用 512 个查询。需要注意的是，对于视频输入，特别采样 13 帧作为 MLLM 的输入。

训练策略

三个阶段。如下图5所示，训练过程分为三个阶段：特征对齐训练、全数据训练和质量微调。

阶段 1：第一阶段的目标是将 MLLM 的特征空间与 DiT 的生成空间对齐。在此阶段，我们仅在图像-指令数据上训练可学习查询、MLLM 中的 LoRA 和 MLP 连接器。经过此阶段后，模型获得了初步的基于指令的编辑能力。然而，由于 MLLM 中的视觉信息较为粗糙，编辑结果与原始图像的一致性较差。
阶段 2：第二阶段有两个目标：(1) 通过引入 VAE 特征提高编辑结果与原始视觉输入之间的保真度；(2) 通过全数据训练，使模型获得统一且泛化的图像/视频编辑能力。在此阶段，训练可学习查询、MLLM 中的 LoRA、MLP 连接器以及整个 DiT。需要注意的是，在该阶段混合图像和视频训练不仅允许使用单一模型实现统一建模，还可以通过利用图像数据激发难以获得训练数据的视频编辑能力。如下图6所示，视频数据中缺乏的分割和风格迁移任务在图像数据中存在。混合训练后，模型也获得了视频风格迁移的能力。
阶段 3：虽然模型在第二阶段后获得了统一的图像/视频编辑能力，但由于部分低质量训练数据的影响，生成质量受到影响，表现为油腻和塑料质感的纹理。为了解决这一问题，收集少量高质量训练数据并进行质量微调。如图5最后一行所示，经过质量微调后，生成结果变得更加自然且美观。在所有阶段中，使用 flow-matching 作为训练目标。

训练数据。对于基于指令的图像编辑，使用大规模开源训练数据，包括 NHR-Edit、X2Edit 和 GPT-Image-Edit。对于视频编辑，由于缺乏高质量的开源视频编辑数据，本文开发了一个用于合成视频编辑数据的流程。

实验

实现细节

在训练过程中，将学习率设置为，图像的全局批量大小为 128，视频的批大小为 32。在第一和第二训练阶段中，各迭代步，而第三阶段迭代步。在图像/视频混合训练期间，以 0.6 的概率采样视频数据，以 0.4 的概率采样图像数据。

评估细节

对于图像编辑，在两个基准上比较不同的方法：ImgEdit-Bench 和 GEdit-Bench。在 ImgEdit-Bench 上，使用 GPT-4.1 对编辑结果进行 1–5 分评分。在 GEdit-Bench 上，采用 Qwen2.5-VL-72B 从三个指标评估编辑结果：指令遵循得分 ()、感知质量得分 () 和总体得分 ()。我们将本文的方法与著名的基于指令的图像编辑方法（即 InstructPix2Pix）、最新的先进方法（即 OmniGen、Uniworld、Step1x-Edit、Bagel）以及若干闭源模型（GPT-4o、DouBao）进行比较。

对于视频编辑，现有基准（例如 UNICBench 和 VACE-Benchmark）主要关注目标提示而非指令提示评估，并且每个任务提供的示例较少。为了解决缺乏基于指令的视频编辑基准的问题，本文引入了 VIE-Bench，其中包含 8 个类别的 140 个高质量样例，涵盖无参考和有参考编辑。先前的工作通常使用 CLIP 文本得分来评估文本与视频的对齐，这种方法在目标提示设置中有效，但无法反映指令遵循能力。因此，本文采用基于 MLLM 的评估者，使用 GPT-4o 来评估编辑准确性（指令遵循）、保持性（与源视频一致性）以及质量（整体视频质量）。

对于基于参考的编辑，GPT-4o 还会评估与参考图像的主体相似度。所有得分范围为 1 到 10。此外，还使用 VBench 来评估视频质量。将本文的方法与著名的基线 InsV2V、最新的先进方法（VACE-14B、Omni-Video）以及闭源系统（Kling、Pika、Runway-Aleph）进行比较。对于移除任务，我们还与 MiniMax-Remover 和 DiffuEraser 进行比较。

比较结果

下表1和表2分别展示了本文的方法与其他方法在GEdit-Bench和ImgEdit-Bench上的比较结果。可以观察到，本文的方法在多个子任务中取得了有竞争力的性能，并且在ImgEdit-Bench的总体得分上优于其他开源方法。下图7显示，在一些复杂场景中，例如从混乱的蔬菜堆中移除西兰花时，OmniGen、UniWorld和Step1x-Edit等方法无法识别目标，而SeedEdit和GPT-4o（OpenAI）生成的编辑结果与原始图像不一致。本文的方法能够准确地进行移除操作，同时保持更好的整体一致性。此外，本文的方法在背景替换的干净程度和风格一致性方面也具有优势。

下表3表明，InstructX在大多数指标上优于当前的开源视频编辑模型，并且与最新的闭源解决方案保持竞争力。在Style/Tone/Weather Change、Hybrid Edit和Ref-Based Swap任务中取得了所有方法中的最高平均分，而在Add、Swap/Change和Remove任务上略低于Runway Aleph，在Ref-Based Add上则略低于Kling。此外，InstructX在多个细粒度评估维度上表现出领先优势。如下图8所示，在细粒度的局部编辑任务中，本文方法实现了更高的精度，而其他竞争方法在手持箱替换任务上表现较差或未能成功替换。本文的方法还在混合编辑中的风格迁移和指令跟随能力上表现出色。在基于参考的编辑中，我们生成的背包与参考图像的相似度更高。

消融研究

对图像与视频编辑统一设计进行了消融实验：(1) 是否分离图像与视频查询；(2) MLLM是否需要多帧视频输入。如下图9(a)所示，分离查询设置在VIE-Bench上取得了更高的得分，因为它能更好地区分不同模态信息的特征提取。图9(b)显示，如果MLLM仅使用视频的首帧来生成编辑指导，在某些复杂场景中（例如编辑内容出现在视频中间位置时），编辑结果容易出现崩溃。

结论

InstructX，一个用于图像与视频编辑的统一框架。具体而言，对MLLM与扩散模型结合的设计进行了系统研究，最终选择了可学习查询（Learnable Query）、MLLM LoRA和MLP连接器（MLP Connector）的集成方案，该方案实现了更快的收敛速度和更优的性能。

本文探索了混合图像-视频训练，这不仅实现了图像与视频编辑的统一建模，还扩展了视频编辑任务的范围。同时，在统一框架中采用了独立查询以更好地区分不同模态。本文还引入了一个基于MLLM的视频编辑基准——VIE-Bench，其中包含8个类别的140个高质量编辑实例。大量实验结果表明，本文的方法在图像和视频编辑方面均优于最新的开源方法。特别是在视频编辑中，InstructX在支持更广泛任务的同时，其性能可与部分闭源编辑方法相媲美。

参考文献

[1] InstructX: Towards Unified Visual Editing with MLLM Guidance

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码免费加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年10月14日星期二

史诗级突破！一个模型让你秒变PS大神，字节最新InstructX仅用“看图”就学会了剪视频