AI I024: 图文双指令开智能创作新纪元！DreamOmni2实现“意念级”P图，文字图片都是你的画笔！

扫码免费加入AI技术交流知识星球，干货不停！

点击下方卡片，关注"AI生成未来"

👇扫码免费加入知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Bin Xia等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2510.06679
Git链接：https://github.com/dvlab-research/DreamOmni2

亮点直击
两个非常实用的任务：基于多模态指令的编辑和由任何具体或抽象概念引导的生成。引入这两个任务使得当前的统一生成和编辑模型成为更智能、更多才多艺的创作工具。
三阶段的数据创建流程。利用这个流程，本文构建了一个高质量、全面的基于多模态指令的编辑和生成数据集。
DreamOmni2 框架，引入了索引编码和位置编码偏移方案，使模型能够处理多参考图像输入。此外，本文提出了一种生成/编辑模型与 VLM 的联合训练方案，增强了模型理解复杂用户指令的能力。
提出了一个基于真实图像数据的 DreamOmni2 基准。

总结速览

解决的问题

基于指令的图像编辑：仅依赖语言指令，难以捕捉具体的编辑细节，需要参考图像。
主体驱动的生成：仅限于具体物体或人物，忽视抽象概念。

提出的方案

新任务引入：提出多模态指令编辑和生成任务，支持文本和图像指令，涵盖具体和抽象概念。
DreamOmni2框架：设计了一个新的框架以解决数据创建和模型框架设计的挑战。

应用的技术

数据合成流程：包括特征混合方法、编辑和提取模型生成训练数据等三阶段流程。
索引编码和位置编码偏移方案：用于处理多图像输入，避免像素混淆。
联合训练：将生成/编辑模型与视觉语言模型（VLM）联合训练，以处理复杂指令。

达到的效果

模型能力增强：DreamOmni2能够更智能地进行创作，处理复杂的用户指令。
高效数据集构建：通过三阶段流程构建了高质量的多模态指令编辑和生成数据集。
实验验证：在真实场景中，DreamOmni2表现出色，实验证明其有效性。
基准测试：提出了基于真实图像数据的DreamOmni2基准，推动新任务的发展。

方法

合成数据

基于多模态指令的编辑和生成是新任务，其主要挑战是缺乏训练数据。对于基于多模态指令的编辑，之前的数据创建流程涉及生成指令、源图像和目标图像的三元组。然而，这种方法无法创建将参考图像作为编辑条件的数据。对于基于多模态指令的生成，之前的主体生成数据流程依赖于分割检测模型来创建参考图像。这种方法难以合成用于生成参考抽象属性或被遮挡的具体物体的数据。

为了解决这两个任务的训练数据问题，本文提出了一个全面的合成数据流程。具体来说，如下图2所示，本方法由三个阶段组成。

在第一阶段，本文引入了一种特征混合方案，其中采用双分支结构来同时生成源图像和目标图像，具体如下：其中，，，。、和是来自目标分支的文本特征，而、和是来自目标分支的噪声特征。和是来自源分支的噪声特征，与和位于同一层。[;] 表示在token（或称长度）维度上的拼接。

本文的特征混合方案利用模型固有的文本生成图像（T2I）能力来生成配对的训练数据。与之前的 UNO diptych 生成方法相比，本文的特征混合方案具有以下几个明显的优势：（1）diptych 方法通过将两幅图像强制合并为一幅，减半了图像分辨率，而特征混合在两个分支中生成图像而不降低分辨率。（2）diptych 方法常常错误地放置分割线，导致内容混合。本文的方法避免了这一问题。（3）特征混合方案生成的数据质量和准确性高于 diptych 方法。然后，本文使用这些数据来训练提取模型。本文的训练数据不仅增强了基础模型在提取具体物体方面的能力，还使其能够捕捉抽象概念，这是它之前不具备的能力。

接下来，如上图2的第二阶段所示，创建基于多模态指令的编辑数据。具体来说，本文首先创建目标图像，使用T2I模型生成的数据和真实图像。对于T2I生成的图像，随机选择多样的元素关键词（例如，物体或属性），并使用大语言模型（LLM）来撰写提示词，然后T2I模型使用该提示词生成目标图像。对于真实图像，本文直接使用视觉语言模型（VLM）提取关键词。T2I数据更灵活，允许任何概念组合，而真实图像反映了自然分布。因此，本文结合了这两种类型的数据。接着，使用在第一阶段训练的提取模型，从目标图像中基于选定的关键词提取一个物体或属性，以创建参考图像。然后，本文应用基于指令的编辑模型来改变目标图像中的选定关键词，得到源图像。最后，本文使用LLM生成编辑指令，形成由源图像、指令、参考图像和目标图像组成的训练三元组。

之后，如上图2的第三阶段所示，创建基于多模态指令的生成数据。使用提取模型从第二阶段的源图像中提取关键词，生成参考图像。通过将这些与第二阶段的参考图像结合，可以获得由多个参考图像、一个指令和一个目标图像组成的训练元组。

本文创建的数据集如下图3所示。本文的数据集包括真实和合成的目标数据，涵盖了生成和编辑的广泛对象类别，包括各种抽象属性和具体物体。此外，本文提供了一套全面的参考图像，案例范围从一个到五个参考图像，使模型能够处理各种任务。

框架和训练

统一的生成和编辑基础模型只能处理单个输入图像。为此，本文提出了 DreamOmni2 框架。在基于多模态指令的任务中，用户通常为了方便将图像标记为"图像1"、"图像2"。然而，在 DIT 中，仅靠位置编码无法准确区分参考图像的索引。因此，通过在位置通道中添加索引编码来解决这个问题。尽管索引编码有助于区分参考图像，但本文发现位置编码仍需要根据之前输入的参考图像的大小进行偏移。通过将此偏移添加到位置编码中，观察到了复制粘贴伪影的减少以及参考图像之间像素混淆的减少。

目前，生成和编辑模型的训练指令通常是结构良好的固定格式。然而，现实世界中的用户指令往往是不规则或逻辑不一致的，这种差异可能会阻碍模型的理解并降低性能。为了解决这个问题，提出对 VLM 和生成模型进行联合训练，使 VLM 能够解释复杂的用户指令，并以训练中使用的结构化格式输出，帮助编辑和生成模型更好地理解用户意图。对于基于多模态指令的编辑，预定义的输出格式将用户指令与精炼的图像描述相结合，而对于基于多模态指令的生成，VLM 直接输出精炼的图像描述。

在训练过程中，本文微调 Qwen2.5-VL 7B 以学习预定义的标准输出格式，学习率为，大约使用 10 A100 小时。然后，本文在 Flux Kontext上使用 LoRA 训练编辑和生成模型，以执行基于多模态指令的编辑和生成，使用预定义的标准指令格式。值得注意的是，通过使用 LoRA 进行训练，本文可以保留 Kontext 的原始指令编辑能力。一旦检测到参考图像，本文的 LoRA 就会激活，将基于多模态指令的编辑和生成无缝集成到统一模型中。此外，本文分别训练生成和编辑的 LoRA，因为生成和编辑之间的区别在于是否保留源图像的一致性。由于指令通常不明确用户是要编辑还是生成，单独训练允许用户自行选择。DreamOmni2 的编辑和生成 LoRA 都在批量大小为 16 和学习率为的条件下训练，耗时约 384 A100 小时。

基准

目前，还没有针对多模态指令编辑和生成的基准。如下表1所示，DreamBooth仅支持单图像生成。虽然 OmniContext包含一些多参考测试案例，但它仅专注于具体对象组合，并未评估基于多模态指令的编辑或抽象属性的加入。为了解决这个问题，提出了 DreamOmni2 基准，以推动这些领域的进展。本文的基准是全面的，由真实图像组成，以准确评估模型在现实场景中的表现。测试案例涵盖了各种类别，包括抽象属性（全局和局部）和具体对象的参考生成和编辑。更多关于 DreamOmni2 基准的信息可以在附录中找到。

实验

基于多模态指令的图像编辑评估。 如下表 2 所示，本文比较了几种原生支持多图像输入的竞争模型，如 DreamO、Omnigen2和 Qwen-Image-Edit-2509。虽然 Kontext和 Qwen-Image-Edit原生不支持多图像输入，本文应用了 Diffusers的方法，将多张图像合并为一个输入。还比较了闭源的商业模型，如 Nano Banana和 GPT-4o。本文在 DreamOmni2 基准上测试了具体对象和抽象属性的编辑示例。模型的成功率由 Gemini 2.5和 Doubao 1.6评估，并由数位专业工程师手动评估结果。如下表 2 所示，DreamOmni2 在人工评估中表现最佳。在 VLM 测试中，DreamOmni2 显著优于开源模型，并取得了接近商业模型的结果。事实上，GPT-4o 和 Nano Banana 经常在编辑属性中引入意外的变化或不一致，这与参考图像不符。这些问题对于 VLM 来说难以准确检测。此外，GPT-4o 导致编辑后的图像出现泛黄现象。

在下图 4 中展示了定性结果，本文呈现了涉及各种具体对象和抽象属性的编辑案例的可视化。显然，DreamOmni2 产生的编辑更加准确且一致性更好。这进一步展示了本文方法在基于多模态指令编辑中的出色表现。

基于多模态指令的图像生成评估。 如下表 3 所示，本文的方法在人工评估和 Doubao 1.6 及 Gemini 2.5 的评估中均优于商业模型 Nano Banana，取得了与 GPT-4o 相当的结果。与主要专注于生成具有多个具体对象图像的开源模型（如 DreamO、Omnigen2 和 Qwen-Edit-2509）相比，DreamOmni2 在生成准确性和对象一致性方面仍显著优于它们，即便在它们的专业领域内也是如此。这进一步强调了 DreamOmni2 在基于多模态指令生成中的有效性。

如下图 5 所示的定量结果表明，开源模型在生成抽象属性方面存在困难。即使在生成这些模型特别优化的具体对象时，DreamOmni2 在指令遵循和对象一致性方面也优于它们。此外，DreamOmni2 甚至优于商业模型 Nano Banana。

联合训练。 如下表 4 所示，本文验证了生成或编辑与 VLM 的联合训练的影响。方案 1 代表基础模型 Kontext。在方案 2 中，本文使用基本指令训练生成和编辑模型，而不引入 VLM。在方案 3 中，本文用标准描述性指令训练 VLM，并将 VLM 生成的描述输入 Kontext。在方案 4 中，对 VLM 和本文的生成或编辑模型进行联合训练。比较方案 2 和方案 1，看到本文的数据显著增强了模型处理基于多模态指令的编辑和生成的能力。比较方案 3 和方案 4，本文观察到引入 VLM 有助于生成和编辑模型更好地理解现实世界用户的复杂指令，提高性能。此外，本文在方案 4 中的联合训练方案优于方案 2 和方案 3，证明了其有效性。

索引和位置编码。 如下表 5 所示，比较了不同的编码方案以帮助模型适应多图像输入。比较方案 3 和方案 1，本文发现添加索引编码使模型能够理解用户指令中"图像 1"、"图像 2"和"图像 3"等引用对应的是哪个图像，从而生成和编辑更准确。此外，比较方案 3 和方案 4，观察到在包含索引编码的情况下，多张图像需要位置编码偏移，而不是使用相同的位置编码。这种调整防止了复制粘贴效应，提高了模型的编辑和生成性能。因此，在 DreamOmni2 中，本文结合索引编码和位置编码偏移来处理多个参考图像。

参考文献

[1] DreamOmni2: Multimodal Instruction-based Editing and Generation

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码免费加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年10月11日星期六

图文双指令开智能创作新纪元！DreamOmni2实现“意念级”P图，文字图片都是你的画笔！