AI I024: 比真图更香？统一生成模型Echo-4o用GPT-4o合成数据“反哺”模型，多项SOTA，效果炸裂！

2025年8月19日星期二

比真图更香？统一生成模型Echo-4o用GPT-4o合成数据“反哺”模型，多项SOTA，效果炸裂！

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Junyan Ye等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2508.09987
项目链接：https://yejy53.github.io/Echo-4o
Git链接：https://github.com/yejy53/Echo-4o
数据集：https://huggingface.co/datasets/Yejy53/Echo-4o-Image/

亮点直击
分析并总结了合成数据相对于真实世界图像的优势，强调其能够生成罕见场景，并为指令跟随任务提供纯净、长尾分布的监督信号。
Echo-4o-Image，一个包含18万样本的合成数据集，使用GPT-4o生成，涵盖超现实场景、多参考生成和指令跟随任务。
数据集上微调Bagel模型，得到统一生成模型Echo-4o，该模型在多个基准测试中达到SOTA。数据集还能持续提升其他骨干（如OmniGen2和BLIP3-o），展现强大可迁移性。
两个新评测基准：GenEval++ 通过增加指令复杂度缓解文本到图像评测中的分数饱和问题；Imagine-Bench专注于幻想任务，旨在评估对想象内容的理解与生成能力。

总结速览

解决的问题

现实世界图像数据集的局限性：

缺乏罕见场景（如超现实幻想、多参考图像生成），无法满足用户多样化需求。
存在背景噪声和文本-图像不对齐问题，影响模型学习的准确性。
长尾分布不足（如特定属性组合"8个红苹果"），导致模型难以处理复杂指令。

开源模型与GPT-4o的生成能力差距：

在指令对齐、想象力生成和多参考合成等任务上表现较弱。

提出的方案

构建合成数据集Echo-4o-Image：

超现实幻想（38K样本，如"扑克牌组成的火车"）。
多参考生成（73K样本，支持多图像融合）。
复杂指令对齐（68K样本，纯净背景+精准属性控制）。

利用GPT-4o生成18万条高质量合成数据，覆盖三类关键场景：
通过合成数据弥补现实数据的盲区，提供干净、可控的监督信号。

训练新模型Echo-4o：

基于开源基线模型Bagel，用Echo-4o-Image微调，提升生成能力。

新评测基准：

GenEval++：增加指令复杂度，解决现有评测分数饱和问题。
Imagine-Bench：专注评估想象力生成（幻想实现、身份保持、美学质量）。

应用的技术

数据蒸馏技术：

从GPT-4o生成数据中提取高质量合成样本，迁移至开源模型。

多模态生成模型微调：

统一框架（如Bagel）适配文本到图像、多参考生成等任务。

自动化评估体系：

基于GPT-4.1的自动评分，结合人工验证，确保评测严谨性。

达到的效果

模型性能提升：

Echo-4o在标准评测（GenEval、DPG、OmniContext）和新基准（GenEval++、Imagine-Bench）中表现优异，尤其在复杂指令遵循和想象力生成上显著领先。
支持多参考生成，实现多图像融合与视觉一致性。

数据集泛化性：

Echo-4o-Image迁移至其他模型（如OmniGen2、BLIP3-o）后，多项指标一致提升，证明其通用性。

解决现实数据缺陷：

合成数据有效补充长尾分布、纯净对齐和幻想场景，缩小与闭源模型的差距。

Echo-4o-Image

Echo-4o-Image——一个从GPT-4o蒸馏得到的大规模合成数据集。如图3所示，该数据集包含约17.9万个样本，涵盖三种任务类型：

3.8万项超现实幻想生成任务
7.3万项多参考图像生成任务
6.8万项复杂指令执行任务

其中，超现实幻想和多参考生成子集包含现有资源中罕见或代表性不足的数据。下文将详细说明数据集构建流程与策略。

超现实幻想图像生成

本文构建了专注于超现实幻想内容的文本到图像数据子集。这类提示词涉及对物体常规属性、时间或空间的不规则修改。虽然该数据类型在用户请求中占比很大，但在真实训练数据中却十分罕见。

如下图3(a)所示，设计了结构化流程来构建Echo-4o-Image的幻想生成子集：

从COCO和Open Images数据集中收集常见物体概念作为生成主体
GPT-4o先进行身份属性构建（描述颜色/形状/尺寸等规范属性）
随后执行概念变形，通过创造性修改和重组引入新颖特征

变形主要分为三类：

属性替换：改变常规特征（如白色香蕉、立方体足球、手掌大小的长颈鹿）
混合重组：重定义物体材质（如水晶番茄）或组合不同物体（如香蕉构成的房屋）
时空异常：将物体置于不可能的场景（如云层中的火车）或融合不同时代特征（如带有未来科技的古代文物）

本文还将单物体提示扩展到多物体幻想组合，使GPT-4o生成涉及多个实体互动的超现实指令，最终产出视觉连贯且富有创意的样本。

多参考图像生成

多参考图像生成以若干参考图像和文本提示为输入，要求提取各图像元素并组合成连贯输出。该任务既需要强大的提示理解能力，又要求保留各参考图像的显著特征并实现无缝融合。与超现实幻想生成类似，现成训练数据极其有限。

如上图3(b)所示，我们设计了包含人物/物体/场景的多参考组合（每样本2-4张输入图像），参考图像涵盖肖像、街拍、动物、物品、服饰、自然景观、地标和室内场景等多元类别。

使用GPT-4o生成基于参考图像的指令时：

每条指令针对特定交互类型（如人-物、物-景）
明确标注图像索引（如Image_1/Image_2）以降低歧义
生成目标图像后，通过改写策略提升语言多样性和语义清晰度

改写过程中，可能将"Image_1"等索引替换为对应物体的具体描述，从而增强训练数据质量和模型在多图像生成任务中的泛化能力。

指令跟随数据生成

针对文本到图像的指令跟随任务，通过引入更复杂的多物体多属性指令来合成数据。如图3(c)所示：

精选基础物体概念集
采用模板驱动策略系统构建包含颜色/位置/数量/尺寸等属性的提示词
使用GPT-4o生成图像

相比真实数据，合成数据具有两大优势：
纯净指令对齐：GPT-4o生成的图像通常具有简洁背景且无无关物体。例如生成"小提琴与两双筷子"时，这些物体会直接呈现在整洁背景上。这种视觉纯净性降低了指令跟随任务的学习难度。

可控长尾组合：相比仅包含有限语义概念的Geneval，我们的数据集显著提升指令复杂度。例如：

GenEval最复杂提示可能仅含4个语义单元（如"橙色电视和绿色蝴蝶结"）
本文的数据集包含"橙色电视、绿色蝴蝶结和黄色螺丝刀"或"皮带、盘子和三个乒乓球拍"等组合

通过增加物体数量及其属性，我们解决了真实图像分布中长尾数据稀缺的问题。

尽管使用最先进的GPT-4o生成图像，仍可能出现对齐错误（生成图像与提示不完全匹配）。为此我们引入文本改写策略确保数据可用性，核心原则是："没有无效图像，只有无效文本"。当检测到不对齐时，根据生成图像修正原始文本，使每个图像-指令对构成语义有效且一致的训练样本。例如图4中，若生成图像包含3块手表而文本指定4块，则将描述修正为3块。通过改写而非丢弃样本，我们充分释放了GPT-4o合成数据的价值。

Echo-4o

为了验证本文精心构建的Echo-4o-Image数据集的有效性，对强基线模型Bagel进行微调，得到了Echo-4o——一个在文本到图像和多参考生成任务中均表现卓越的统一多模态生成模型。

Bagel是一个统一的多模态生成模型，能够同时实现图像理解和生成。该模型支持文本到图像生成和单图像到图像生成任务，包括图像编辑和自由形式操控。在架构上，Bagel采用ViT进行图像理解，VAE进行图像生成，并使用了混合专家（mixture of transformers）方法，其中一个专家处理VAE token，另一个专家处理所有其他token。对于多参考任务，图像的ViT和VAE特征均输入模型。然而，尽管多图像输入在架构上是可行的，Bagel在多参考生成任务上的表现较差。

本文使用Echo-4o-Image中的所有文本到图像和多参考数据对Bagel进行微调。训练目标采用仅针对输出图像计算的流匹配损失（flow matching loss）。除VAE外，对所有模型组件进行了24,000步训练，学习率为2e^-5。通过这一微调过程，Echo-4o在多参考生成任务上取得了卓越的性能，同时进一步提升了文本到图像生成能力（详见第5节）。我们特意选择Bagel作为基线模型，因为它基于数万亿token的交错多模态数据进行了训练。Echo-4o-Image在这一经过广泛训练的模型上仍能带来显著提升，这证明了精心设计的合成数据的互补价值。

GenEval++ & Imagine-Bench

指令跟随评估——GenEval++

以往的指令跟随基准测试（如GenEval）被广泛用于评估图像生成模型遵循文本指令的能力。然而，这些基准测试通常依赖目标检测器或基于CLIP的模型进行自动评分，而这两种方法在准确性上存在显著局限性。如图4所示，在GenEval中，当评估"绿色热狗"等提示词时，检测器经常因"热狗"（一种食物）与绿色之间的弱关联而做出错误判断——尽管生成的图像在视觉上是正确的。类似地，物体之间的遮挡可能导致计数不准确，从而产生假阴性结果。此外，现有基准测试中的文本指令相对简单，语义多样性有限。因此，当前模型的得分通常在0.8–0.9之间，表明指标饱和，从而限制了这些基准测试的区分能力。

为了解决这些局限性，本文推出了GenEval++，这是一个更准确、更具挑战性的基准测试，用于评估图像生成中的指令遵循能力。如下图4所示，GenEval++采用GPT-4.1多模态模型作为评估器，利用其强大的复杂语义组合理解能力来评估生成图像与文本指令的一致性。根据预定义的检查清单（涵盖对象、数量、颜色、位置和大小等多重标准），评估器仅在所有条件均满足时才判定结果为正确。此外，该基准测试覆盖了七种任务类型，涉及不同属性组合，每种类型包含40个高复杂度提示词，总计280条文本指令。GenEval++具有更丰富的语义和更多样的组合，任务难度显著高于原始GenEval。另外，为了与"一张……的照片"的提示风格保持一致，动漫风格或包含多个不相关元素的输出被视为无效。

超现实与幻想评估——Imagine-Bench

此外，现有的评估协议主要关注现实世界生成任务。然而，生成模型的真正价值不仅在于再现现实，还在于创造未知，这与用户驱动的创意指令的重要组成部分相契合。为此，我们推出了一个新的基准测试Imagine-Bench，旨在评估模型在超现实和幻想图像生成中的能力。Imagine-Bench的主要任务是为常见物体添加奇幻元素，同时保留其核心身份特征。例如，指令"一个方形的足球"要求模型将形状改为立方体，同时保留标准的黑白足球纹理。此类任务对当前理解-生成统一模型提出了严格挑战，因为它们需要打破概念与外观之间的固有关联，以实现真正的创造性合成。

Imagine-Bench包含270条多样化的创意指令，涵盖广泛的超现实属性。在评估过程中，每条指令首先由GPT-4o处理，生成相应的检查清单，包含详细解释和预期结果（包括所需的奇幻修改和物体不变身份特征的描述）。给定提示词和生成的图像，GPT-4.1从三个维度进行评分：

幻想实现度（Fantasy Fulfillment）——生成的图像是否忠实实现了提示词的超现实方面；
身份保留度（Identity Preservation）——变换后的物体是否保留了其原始身份的基本视觉特征；
美学质量（Aesthetic Quality）——生成图像的视觉吸引力、创造力和多样性。

受VIEScore和OmniGen2评估协议的启发，GPT-4.1为每个维度给出0–10的评分，并为每个评分提供明确的推理，确保评估的严谨性和可解释性。进一步采用更严格的评分方案，最终得分为：

实验

本节对Echo-4o进行全面评估，重点关注其在多样化生成任务中的表现，包括指令跟随图像生成、超现实/幻想图像合成以及多参考图像生成。结果表明，Echo-4o在这些任务中均表现优异，凸显了Echo-4o-Image合成数据集在提升生成模型能力方面的有效性。

指令跟随图像生成

在两个广泛使用的基准测试——GenEval和DPG-Bench，以及新提出的GenEval++上评估模型的指令跟随能力。如下表1所示，Echo-4o在GenEval上取得了0.89的分数，优于Bagel和OmniGen2等先前的统一模型。在DPG-Bench（下表2）上，Echo-4o以86.07的总分超越了SD3和UniWorld等强劲竞争对手。这些结果表明，Echo-4o在不同类型的基准测试中均表现优异，展现了其在短文本和复杂长文本指令上的强大指令跟随生成能力。

在现有的文本到图像指令跟随任务中，Echo-4o始终表现卓越。与基线模型Bagel相比，Echo-4o在GenEval上实现了8.5%的提升，验证了Echo-4o-Image数据集中纯合成数据对增强指令跟随能力的有效性。这些干净背景的样本提升了模型学习图像与文本指令之间精确对齐的能力。尽管训练数据主要由短文本指令组成，但模型在复杂长文本生成任务上也表现出强大的泛化能力，DPG-Bench上的表现即为明证。

此外，在新提出的更具挑战性的GenEval++基准测试上，大多数模型表现不佳，得分低于0.4。尽管GenEval++的任务与GenEval的主要区别仅在于增加了一两个额外对象及其属性，但这一看似微小的变化显著提高了任务难度。例如，生成五个热狗比生成四个更具挑战性。早期的基于扩散的模型（如SDXL）在此类场景中几乎完全无法遵循指令。即使是Bagel和OmniGen2等先进统一模型（在GenEval上与GPT-4o差距较小），在这些更难的任务上也远远落后。

Echo-4o在所有模型中（除GPT-4o外）表现最佳，超越OmniGen2和Bagel达40%以上。这凸显了Echo-4o强大的指令跟随能力，这与Echo-4o-Image中包含更复杂、长尾的属性数据密切相关。下图5进一步提供了不同模型的定性比较。

超现实幻想图像生成

本文在Imagine-Bench基准测试上评估了多个模型的理解和创意能力，结果如下表4所示。传统图像生成模型在此任务上表现不佳，主要因其训练范式通常在文本概念与视觉表征之间建立直接绑定。受限于有限的理解能力，这些模型难以区分现有物体的固有概念与幻想导向指令中指定的额外要求。BLIP3o和OmniGen2等统一模型得益于更强的理解能力，取得了稍好的结果。

在开源模型中，Echo-4o表现最佳，直接受益于Echo-4o-Image中包含的幻想导向图像数据。这些数据突破了现实世界图像的领域限制，从而以相对直接的方式提升了性能。未来工作可探索更系统的方法，进一步提升统一模型在理解和创意生成上的能力。

多参考图像生成

使用OminiContext基准测试评估多参考图像生成能力。现有图像生成模型和统一架构对这一能力的探索仍显不足。开源模型中仅OmniGen2进行了初步尝试，FLUX和Bagel等多数模型要么缺乏原生支持，要么完全无法适配多参考场景。通过利用专为多参考场景设计的合成数据，Echo-4o获得了基础Bagel架构所不具备的该能力。

如下表5所示，Echo-4o在MULTIPLE和SCENE两种设置下均优于所有开源模型，较Bagel基线实现显著提升，并超越此前最佳开源模型OmniGen2。下图7的定性对比进一步表明，在二图或三图参考生成任务中，Echo-4o在指令遵循和参考图像内容保真度上持续优于OmniGen2。

基础模型的普适有效性

为验证Echo-4o-Image数据集的广泛有效性，本文使用该合成数据对多个现有统一模型进行微调实验。如下图1(b)所示，BLIP-3-o、Bagel和OmniGen2等模型在GenEval、GenEval++、DPG-Bench和OminiContext等基准测试上均获得一致提升。

这些结果表明，Echo-4o-Image能为不同基础模型提供通用性增强，显著改善其指令理解、幻想图像合成和多参考图像生成能力。跨任务与跨架构的稳定增益证实了该数据集的广泛适用性，及其对统一多模态生成模型高质量微调的重要价值。

与ShareGPT-4o-Image的对比

本文进一步将本数据集与GPT-4o衍生的另一合成数据集ShareGPT-4o-Image进行对比。在相同训练设置下，两者均用于微调Bagel基线模型直至收敛。下图8显示：Echo-4o-Image使指令跟随能力大幅提升（GenEval分数从0.820增至0.895），而ShareGPT-4o-Image仅带来边际改善（增至0.838）。GenEval++上也呈现相似趋势。

该差异可能源于ShareGPT-4o-Image大量数据源自ALLaVA的文本输入（已包含高质量真实图像对），导致其本质上复现了真实数据集的图像，对指令跟随的增益有限。不过ShareGPT-4o-Image仍能提升美学对齐能力。值得注意的是，ShareGPT-4o-Image缺少多参考图像生成数据——这一Echo-4o-Image成功实现的关键能力——进一步突显后者的广泛实用性。

结论

本研究提出由GPT-4o生成的大规模合成数据集Echo-4o-Image，并通过开发Echo-4o验证其在增强统一多模态生成模型方面的有效性。同时，推出Geneval++和Imagine-Bench两个新基准测试，为图像生成能力提供更全面、更具挑战性的评估框架。

实验结果表明，高质量合成数据集Echo-4o-Image能有效弥补真实数据集的局限，并跨不同基础模型实现知识迁移。期望该数据集的开源能通过合成数据填补真实图像缺口，推动统一多模态生成模型在指令跟随、创意生成和多参考图像合成等能力的进步。未来工作将扩展数据集至图像编辑任务（另一高质量真实数据稀缺的场景），并对FLUX等更多模型进行微调，进一步验证其通用性和影响力。

参考文献

[1] Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generatio

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2025年8月19日星期二

比真图更香？统一生成模型Echo-4o用GPT-4o合成数据“反哺”模型，多项SOTA，效果炸裂！