AI I024: 多模态终极大一统！字节开源BAGEL爆火：图文生成理解双冠王，竟能预测未来画面？

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Chaorui Deng等

解读：AI生成未来

论文链接：https://arxiv.org/pdf/2505.14683
项目链接：https://bagel-ai.org/
模型地址：https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

亮点直击
可扩展生成认知模型（Scalable Generative Cognitive Model，BAGEL），一个开源的多模态基础模型，具有 7B 活跃参数（总计14B），在大规模交错多模态数据上训练。
BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源视觉语言模型（VLMs），并且在文本到图像质量方面，与领先的公开生成器如SD3和 FLUX.1-dev相当。
BAGEL 在经典图像编辑场景中的定性表现也始终优于主要的开源模型。
它扩展到自由形式的视觉操作、多视图合成和世界导航，这些能力构成了超出以往图像编辑模型范畴的"世界建模"任务。

总结速览

统一多模态能力

输入与输出：处理文本和图像输入，生成混合格式输出（如图像+文本）
预训练基础：基于 Qwen2.5-7B-Instruct 和 siglip-so400m 模型初始化，结合 FLUX.1-schnell 的变分自编码器（VAE），提供强大的推理、对话和生成能力
数据驱动：通过数万亿交错多模态 tokens（语言、图像、视频、网络数据）进行预训练、持续训练和监督微调，支持生成高保真、逼真的图像和视频帧

核心功能

生成：生成高保真图像、视频帧及交错内容，如三个标有 "SDXL"、"BAGEL"、"FLUX" 的魔法药水瓶，展示细节化生成能力
编辑：支持复杂图像编辑（如风格转换、3D 动画风格、Jellycat 毛绒玩具风格），通过视觉-语言推理超越基础编辑任务
导航：从现实世界视频数据中学习导航知识，适应科幻、艺术画等多样化环境
多轮对话：通过统一多模态接口，支持多轮交互、物理动态建模和未来帧预测
思考模式：利用多模态推理（CoT），将简短提示转化为详细、逻辑一致的输出，如将"由小车组成的大车"细化为逼真图像描述

技术架构

模型结构：采用 Mixture-of-Transformer-Experts (MoT) 架构，结合两个编码器分别捕获像素级和语义级图像特征，最大化多模态信息学习能力
训练方法：

Next Group of Token Prediction：预测下一组语言或视觉令牌，提升压缩效率
训练阶段：包括预训练、持续训练和监督微调，基于数万亿多模态 token（语言、图像、视频、网络数据）

基础模型：基于 Qwen2.5-7B-Instruct、siglip-so400m 和 FLUX.1-schnell VAE，所有均采用 Apache 2.0 许可证

性能表现（基准测试）

视觉理解（与开源模型对比）：

MME：2388（优于 Qwen2.5-VL-7B 的 2347）
MMBench：85.0（优于 Janus-Pro-7B 的 79.2）
MMMU：55.3（略低于 Qwen2.5-VL-7B 的 58.6）
MM-Vet：67.2（略优于 Qwen2.5-VL-7B 的 67.1）
MathVista：73.1（优于 Qwen2.5-VL-7B 的 68.2）
结论：BAGEL 在多模态理解任务中整体领先，特别是在 MME 和 MathVista 上表现突出

文本到图像生成（GenEval 评分，0-1，1 为最佳）：

整体得分：0.88，优于 FLUX-1-dev（0.82）、SD3-Medium（0.74）和 Janus-Pro-7B（0.80）
细分表现：在单物体（0.98）、双物体（0.95）、计数（0.84）、颜色（0.95）等任务中表现优异，展现高精度和多样性

图像编辑（GEdit-Bench-EN 和 IntelligentBench）：

结构一致性 (SC)：7.36（优于 Step1X-Edit 的 7.09 和 Gemini-2-exp 的 6.73）
提示质量 (PQ)：6.83（优于 Step1X-Edit 的 6.76）
整体 (O)：6.52（优于 Gemini-2-exp 的 6.32）

GEdit-Bench-EN：
IntelligentBench：BAGEL 得分 44.0，结合 CoT 后提升至 55.3，接近 Gemini-2-exp 的 57.6
结论：BAGEL 在图像编辑任务中表现卓越，尤其在结合 CoT 后智能编辑能力显著提升

新兴特性

能力分阶段显现：

早期：多模态理解和生成能力
中期：基础图像编辑能力
后期：复杂智能编辑、自由视觉操作、多视角合成和世界导航能力

关键发现：结合变分自编码器（VAE）和视觉变换器（ViT）特征显著提升智能编辑能力，强调视觉-语义上下文对高级多模态推理的重要性
世界建模：BAGEL 超越传统图像编辑，具备多视角合成和导航等"世界建模"能力，适用于科幻场景、艺术创作等复杂任务

模型

如下图 2 所示，BAGEL 采用 MoT 架构，由两个 Transformer 专家组成——一个专注于多模态理解，另一个专注于多模态生成。相应地，模型使用两个独立的视觉编码器：一个面向理解的编码器，另一个面向生成的编码器。这两个 Transformer 专家通过每一层的共享自注意力操作，在相同的 token 序列上运行。

在预测文本 token 时，BAGEL 遵循 Next-Token-Prediction 范式，继承了自回归语言模型的成熟优势。对于视觉 token 的预测，BAGEL采用Rectified Flow 方法，遵循视觉生成领域的最佳实践。

模型设计空间

统一的多模态生成与理解模型的典型设计选择包括：

量化自回归（Quantized AR）：使用离散视觉 tokenizer进行的自回归视觉生成。这类方法在文本与视觉 token 生成中均采用 Next-Token-Prediction 范式，易于实现，因为它可以直接利用现有的 LLM 基础架构。不幸的是，自回归模型的视觉生成质量在经验上劣于基于扩散的方法。此外，由于自回归方法的序列性质，其推理延迟较高。

外部扩散器（External Diffuser）：将LLM 主干与外部扩散模块结合。该设计通过轻量可训练的适配器将预训练的 LLM/VLM 与扩散模型连接。通常，语言主干以自回归方式生成一组潜在 token 作为"语义条件"信号，随后由扩散模块生成图像。该设置通常在最小数据消耗下迅速收敛，并可能在多模态生成与理解的标准基准测试中获得有竞争力的性能。然而，其主要缺点在于将 LLM 上下文压缩为相对较少的潜在 token，这在理解与生成模块之间引入了显式瓶颈，存在显著信息损失的风险——尤其是在长上下文多模态推理中。这种约束可能违背大型基础模型的扩展理念。

集成式 Transformer（Integrated Transformer）：在单一Transformer 中统一集成 LLM 与扩散模型。该方法受到自回归 Transformer（强大的理解/推理能力）与扩散 Transformer（出色的视觉生成能力）互补优势的驱动，利用它们共同的模型架构实现两种范式之间的无缝切换。与外部扩散器方案相比，该方法需要显著更高的训练计算量。然而，它提供了一个关键优势：在所有 Transformer 块中保持无瓶颈的上下文，从而实现理解与生成模块之间的无损交互，并更适合扩展。

本研究认为统一模型有能力从大规模交错多模态数据中学习更丰富的多模态能力——这些新兴能力是传统基准测试无法捕捉的。为此，选择无瓶颈的集成式 Transformer 方案，认为该方案在大规模训练设置中更具潜力，并可能更适合作为长上下文多模态推理与强化学习的基础模型。

架构

主干模型继承自一个仅使用解码器的 Transformer 架构的 LLM。选择 Qwen2.5 LLM作为初始化模型，因其卓越性能且公开可用。该模型采用RMSNorm进行归一化，使用 SwiGLU作为激活函数，采用 RoPE进行位置编码，并使用 GQA进行 KV 缓存压缩。此外，在每个注意力块中加入了QK-Norm，这一做法借鉴了图像/视频生成模型中的通用实践，在稳定训练过程中表现有效。

视觉信息从两个方面进行表示：

用于视觉理解，利用 ViT 编码器将原始像素转换为 token。采用 SigLIP2-so400m/14，分辨率固定为 384，作为 ViT 编码器的初始化。在此基础上，首先对位置嵌入进行插值，并将最大输入尺寸设为，然后集成 NaViT以支持按图像原始宽高比进行处理。采用一个两层的 MLP 连接器来匹配 ViT token 的特征维度与 LLM 的隐藏状态。
用于视觉生成，使用来自 FLUX的预训练 VAE 模型，将图像从像素空间转换为隐空间，反之亦然。该潜在表示的下采样比例为 8，潜在通道数为 16，随后通过一个的 patch embedding 层处理，以减小空间尺寸并匹配 LLM 主干的隐藏维度。VAE 模型在训练过程中保持冻结。

我们的框架在将 ViT 和 VAE token 融入 LLM 主干之前，对其应用二维位置编码。对于扩散时间步编码，我们遵循 [17]，将时间步嵌入直接加到 VAE token 的初始隐藏状态中，而不是像传统扩散 Transformer [19, 35, 81] 那样使用 AdaLN。这一修改在保持性能的同时带来了更简洁的架构。

在 LLM 内部，来自理解和生成任务的文本、ViT 和 VAE token 会根据输入的模态结构进行交错排列。对于属于同一个样本的 token，我们采用一种广义版本的因果注意力机制。这些 token 首先被划分为多个连续的分段，每个分段包含来自单一模态（例如文本、ViT 或 VAE）的 token。某一分段中的 token 可以关注所有前面分段中的 token。在每个分段内部，我们对文本 token 采用因果注意力，而对视觉 token 保持双向注意力。

广义因果注意力（Generalized Causal Attention）

在训练过程中，一个交错的多模态生成样本可能包含多张图像。对于每张图像，我们准备三组视觉 token：

加噪 VAE token：被扩散噪声扰乱的 VAE 潜变量，仅用于 Rectified-Flow 训练；MSE 损失在此集合上计算。
干净 VAE token：原始（无噪声）潜变量，用作生成后续图像或文本 token 时的条件。
ViT token：由 SigLIP2 编码器获得，有助于在交错的生成与理解数据之间统一输入格式，并在经验上提升交错生成质量。

在交错的图像或文本生成中，后续的图像或文本 token 可以关注前面图像的干净 VAE token 和 ViT token，但不能关注其加噪的 VAE token。

对于交错的多图像生成，我们采用 diffusion forcing 策略，为不同图像添加独立的噪声水平，并将每张图像条件于前面图像的加噪表示。此外，为增强生成一致性，遵循 [17]，随机将连续图像分组，并在每组内应用完整注意力。每组内的噪声水平保持一致。

我们使用 PyTorch FlexAttention [71] 实现广义因果注意力，相比于朴素的缩放点积注意力实现约的加速。在推理阶段，广义因果结构允许我们缓存已生成多模态上下文的 key-value (KV) 对，从而加速多模态解码。仅缓存干净 VAE token 和 ViT token 的 KV 对；一旦图像完全生成，上下文中的对应加噪 VAE token 将被其干净版本替换。

为了在交错推理中启用无分类器引导（classifier-free guidance），以概率分别为0.1、0.5 和 0.1 随机丢弃文本、ViT 和干净 VAE token。广义因果注意力的示意图如下图 15 所示。

Transformer 设计

遵循集成式 Transformer 方案的原则，比较了几种 Transformer 变体：标准的 Dense Transformer、Mixture-of-Experts (MoE) Transformer，以及 Mixture-of-Transformers (MoT) 架构。

MoE 变体：仅复制每个 Qwen2.5 LLM 块中的前馈网络（FFN），作为生成专家的初始化。
MoT 变体：复制 Qwen2.5 LLM 的所有可训练参数，以创建一个完整尺寸的生成专家。类似的架构也被 [65] 采用。

模型中的 MoE 和 MoT 都使用硬路由：新复制的生成专家专门处理 VAE token，而原始参数（理解专家）处理文本和 ViT token，遵循 Qwen-VL 系列的策略。尽管 MoE 和 MoT 架构相比于密集基线模型使总参数量大约增加了一倍，但三种模型变体在训练和推理过程中具有相同的 FLOPs。

15 亿参数的 Qwen-2.5 LLM 上进行对照实验，保持超参数和数据配置一致，以将 Transformer 架构作为唯一变量。如下图 3 所示，MoT 变体在性能上始终优于密集和 MoE 设计，尤其在多模态生成任务上差距最为显著。MSE 损失（生成）呈现出平滑、单调下降的轨迹，MoT 不仅收敛最快，还达到了最低的最终损失。相比之下，CE 损失（理解）在每一步之间波动较大——这是交错异构数据的预期结果——但 MoT 在整体上仍保持最佳性能。这些发现突显出将用于生成的参数与用于理解的参数解耦的明显优势，表明这两个目标可能会将模型引导至参数空间的不同区域——至少在本次 15 亿参数规模的实验中如此。简言之，为多模态理解和生成分别分配容量可以缓解由模态特定学习目标之间竞争引发的优化挑战。

数据

由于数据定义了大型基础模型的知识边界，BAGEL 在多个模态上的多样化数据集上进行训练——包括语言、图像、视频和网页数据——使其能够通过统一的多模态接口执行多模态推理、上下文预测、物理动力学建模和未来帧预测。除了标准的视觉-语言（VLM）、文本到图像（T2I）和大规模语言建模（LLM）数据集之外，我们还从网页和视频来源构建了新的视觉-文本交错数据集，以进一步增强模型的顺序多模态推理能力。在下表 1 中，我们总结了不同模态下训练数据的规模和组成。以下各节将详细介绍我们数据集的来源、准备流程和数据混合策略。

仅文本数据

为了保持底层 LLM 的语言建模能力，我们用一组高质量的仅文本数据补充训练语料。这些数据经过精心筛选，旨在支持广泛的语言覆盖能力，并实现强大的推理与生成能力，适用于通用文本任务。

视觉-文本配对数据

图文配对数据在多模态学习中起着核心作用，为视觉-语言模型（VLM）和文本到图像（T2I）生成提供大规模视觉监督。在本文设置中，根据下游使用方式将图文配对数据组织为两个子集：一个用于 VLM 预训练，一个用于 T2I 生成。

VLM 图文对：使用大规模图文对进行 VLM 训练，涵盖广泛的视觉概念，主要来源于网页的 alt 文本和图像说明。这些数据经过基于 CLIP 的相似度过滤、分辨率和宽高比限制、文本长度检查以及去重处理，以确保质量和多样性。为了解决长尾分布问题，采用概念感知采样策略，以提高对稀有类别的覆盖。此外，还引入了来自 OCR 文档、图表和锚定标注的结构化监督，以增强模型的阅读和空间理解能力。

T2I 图文对：我们引入高质量的图文对，以及来自现有 T2I 模型的极少量合成数据。这些数据不仅具有多样化的说明风格（如艺术性、描述性和超现实风格），还包含经过清晰度、结构完整性和语义多样性筛选的高质量图像。这些样本共同提升了我们 T2I 训练语料的视觉质量和风格多样性。

视觉-文本交错数据

尽管图文配对数据提供了有用的监督，但在支持涉及多张图像和中间文本的复杂上下文推理方面仍显不足。训练于此类数据的模型往往难以捕捉跨模态的视觉与语义关系，导致生成结果缺乏连贯性。为了解决这些限制，在训练中引入了大规模的视觉-文本交错数据。

为了提升多模态理解能力，使用 VLM 交错数据集。对于视觉生成，引入统一协议，通过结合多种来源构建视觉-文本交错数据，以支持更丰富的多模态交互，具体如下所述。

数据来源

为了全面涵盖多样的现实场景并具备可扩展的数据供给能力，训练语料整合了两个主要来源，这些来源为多模态推理提供了充足的知识：视频数据 和 网页数据。

视频数据通过直接捕捉来自现实世界的时间和空间动态，提供了丰富的世界知识——这是最大且最自然的模拟器。它保留了细粒度的视觉细节，维持帧间的一致性，并建模复杂运动，特别适合图像编辑、导航和三维操作等任务。我们的视频数据集由公开可用的在线视频资源构建，并结合两个开源数据集：Koala36M，提供大规模的教学与交互丰富内容，以及 MVImgNet2.0，包含从不同摄像机视角捕捉的物体，用于支持多视角空间理解。

网页数据捕捉了复杂的真实世界多模态结构，并提供了涵盖广泛领域的多样化知识。它包括自然交错的资源，如插图百科文章、分步视觉教程以及其他具有丰富视觉基础的文档。这种交错格式为训练模型执行多模态推理提供了丰富的监督信号。我们在 OmniCorpus [39] 的基础上构建了数据集，该数据集是从 Common Crawl预处理而来的大规模数据集，提供了大量交错的文本和图像网页文档。还引入了开源图像编辑数据集作为结构化交错数据，这些数据教授了细粒度的编辑行为，并增强了模型进行精确多模态推理和分步生成的能力。

数据过滤

视频数据过滤 遵循 T2V 视频处理流程[62]的协议，通过时间切分、空间裁剪和质量过滤，将视频预处理为高质量训练片段。视频首先使用轻量级镜头检测被分割为短而连贯的片段，并可根据视觉相似性选择性地合并相关片段。随后，我们通过裁剪检测和帧级边界框聚合，去除黑边和覆盖层（如标志或文本）。为确保质量，我们根据长度、分辨率、清晰度和运动稳定性过滤片段，并使用基于 CLIP 的相似性进行去重。该过程生成了一个干净且多样化的视频数据集，适用于多模态训练。

网页数据过滤 为了从大规模语料中筛选高质量交错数据，设计了一个两阶段过滤流程，目标是教程、百科条目和设计类内容等文档，其中文本与图像具有强语义对齐。受 DeepSeekMath启发，我们首先执行轻量级的主题选择过程：通过提示 LLM 对一小部分文档进行分类，然后使用所得标签训练 fastText分类器，以实现高效的大规模推理。选中的数据随后再次通过 LLM 分类器进行细粒度过滤。采用 Qwen2.5 的 14B 模型，以在性能和效率之间取得平衡。为进一步提升数据质量，我们还应用了一组基于规则的过滤器，针对图像清晰度、相关性和文档结构，具体如下表 2 所示。

数据构建

来自视频的交错数据 为了从视频中构建图文交错序列，我们生成连续帧之间视觉变化的文本描述——捕捉物体运动、动作转换和场景切换。这些帧间描述作为时间监督信号，用于学习视觉动态。虽然大型 VLM 能够生成高质量的变化描述，但其推理成本限制了可扩展性。因此我们基于 Qwen2.5-VL-7B蒸馏出一个轻量级的描述模型，并在一小部分高质量帧间示例上进行微调。为减少幻觉，我们将描述长度限制为 30 个 token。对于每个视频片段，我们平均采样四帧，并为每对帧生成描述，最终得到 4500 万个具有时间基础的交错序列。下图 4a 展示了数据流程及示例。

来自网页的交错数据 为了从网页文档中构建高质量的交错序列，旨在减少因图像与其配文及周围视觉上下文对齐较弱而导致的图像生成难度。为每张图像提供更具局部性和相关性的线索，采用"先生成描述"的策略：对每张图像使用 Qwen2.5-VL-7B生成简洁描述，并将其直接插入图像前，作为概念支架。这使模型在生成图像前，能基于前文上下文和插入的描述形成概念草图。通过生成描述引导模型对图像的预期，该方法缓解了由松散或模糊输入引起的问题。此外，还对超过 300 个 token 的图像间文本段落使用 LLM 摘要器进行改写，以提升上下文密度。这些步骤生成了一个更干净、更结构化的数据集，包含 2000 万个交错网页文档。数据流程及示例见上图 4b。

增强推理数据

受 O1和 DeepSeek-R1等近期模型启发，利用长上下文的 Chain-of-Thoughts 数据用于多模态理解。此外，假设在图像生成前引入基于语言的推理步骤，有助于澄清视觉目标并改善规划。为验证该假设，构建了 50 万个增强推理示例，涵盖四类结构关系：文本到图像生成、自由形式图像编辑和概念化编辑。

文本到图像生成 首先手动编写一组简短而模糊的 T2I 查询，每个查询配有简单的生成指导。通过 in-context learning，提示 Qwen2.5-72B生成更多查询-指导对及相应详细提示，随后将其输入 FLUX.1-dev生成目标图像。该流程生成了由查询、推理轨迹（指导 + 详细提示）和图像组成的训练三元组，使模型能够将图像生成建立在语言推理基础上。

自由形式图像编辑 通过提示 VLM 输入源图像、目标图像、用户查询和来自 DeepSeek-R1的推理轨迹示例来生成增强推理示例。R1 示例基于源图像与目标图像的描述、用户查询和推理指令生成。VLM 的推理轨迹生成提示见下表 9 和下表 10。我们主要从两个来源采样源-目标图像对：开源编辑数据集（如 OmniEdit）和交错视频数据，这些来源提供了大量自然发生的编辑场景，具有显著运动、视角变化和人类交互，同时保持时空一致性。

概念化编辑 概念化编辑针对那些需要高层次概念推理而非局部像素修改的图像编辑任务，例如将物体转化为设计草图。对于这些任务，使用网页交错数据集，从每个序列中采样候选图像对，并应用三阶段 VLM 流程构建高质量问答示例。首先，给定图像序列，提示 VLM 识别合理的输入-输出对。接着，提示模型基于所选图像对生成相应文本问题。最后，使用 VLM 评估问题质量及其与输入输出图像的对齐程度，剔除低质量示例。被接受的示例随后输入 VLM，并提示其生成来自 DeepSeek-R1的推理轨迹示例，以输出所需变换的有根解释，如下表 11 所示。该设置帮助模型学习从多样化文本指令中理解复杂视觉目标。

训练

如下表 3 所示，采用多阶段训练策略，使用上文所述的动态混合精选数据——具体包括用于初始化 VLM 连接器的对齐阶段（Alignment）、用于大规模预训练的预训练阶段（Pre-training）、用于提升分辨率和交错数据比例的持续训练阶段（Continued Training），以及用于高质量微调的有监督微调阶段（Supervised Fine-tuning）：

阶段：对齐（Alignment）
在此阶段，通过仅训练 MLP 连接器（保持视觉编码器和语言模型冻结）来对齐 SigLIP2 ViT 编码器与 Qwen2.5 LLM。此阶段仅使用图文对数据来执行图像描述任务，每张图像被调整为固定分辨率，以匹配预训练 SigLIP2 的输入尺寸。
阶段：预训练（Pre-training, PT）
在此阶段，为 LLM 添加 QK-Norm，除 VAE 外的所有模型参数均可训练。训练语料包含 2.5 万亿 token，由文本、图文对、多模态对话、网页交错和视频交错数据组成。在多模态理解与生成任务中采用原生分辨率策略，对图像的长边最大值和短边最小值进行限制。
阶段：持续训练（Continued Training, CT）
相较于 PT 阶段，CT 阶段提高了视觉输入分辨率，这对多模态生成与理解性能至关重要。进一步策略性地提高交错数据的采样比例，以强化跨模态推理学习，因为此时模型的核心理解与生成能力已更加稳定可靠。CT 阶段共消耗约 2.6 万亿 token。
阶段：有监督微调（Supervised Fine-tuning, SFT）
在 SFT 阶段，对于多模态生成，我们从图文对数据集和交错生成数据集中构建高质量子集；对于多模态理解，从 LLaVA-OV和 Mammoth-VL指令微调数据中筛选子集。该阶段训练 token 总数为 727 亿。

在所有训练阶段中，使用 AdamW优化器，设置，。受 [51] 启发，将，以抑制损失激增。在提高生成分辨率时，我们还将扩散时间步从增加到，以确保合理的噪声水平分布。在 PT、CT 和 SFT 阶段，我们采用恒定学习率，以便在无需重启训练过程的情况下轻松扩展训练数据。为确保不同 rank 之间的负载均衡，将每个rank上的序列打包为窄长度范围（Alignment 和 PT 阶段为到 token，CT 和 SFT 阶段为到 token）。

与独立 VLM 或 T2I 模型的预训练不同，统一多模态预训练需要仔细调整两个关键超参数——数据采样比例和学习率——以平衡理解与生成任务的训练信号。下面描述指导这些选择的经验洞察，这些洞察也构成了上表3中总结的训练协议的基础。

数据采样比例

为了在统一预训练中选择各数据源的采样比例，在 Qwen2.5 的 15 亿参数版本上进行了多组控制实验，调整多模态生成数据与多模态理解数据的比例。如下图 5 所示，将生成数据的采样比例从 50%（"1g1u"）增加到 80%（"4g1u"）可稳定降低 MSE 损失，带来 0.4% 的绝对下降——在实际中对 rectified-flow 模型而言是显著的改进。相比之下，交叉熵（CE）损失在不同采样比例下没有一致的变化趋势；在第 14,000 步中，"4g1u" 与 "2g1u" 之间的最大差异为 0.07，但对下游基准测试影响可以忽略不计。这些发现表明，生成示例应比理解示例被更频繁地采样——这是在整个训练协议（见上表3）中采用的启发式策略。

学习率

接着进行了一个与前文设置相同的控制实验，唯一不同的是学习率的设置。如下图 6 所示，两种损失呈现相反的行为：较大的学习率使 MSE 损失收敛更快，而较小的学习率有利于 CE 损失。为了调和这一权衡，为这两个目标分配了不同的权重因子，如上表 3 所列。

评估

为了全面评估一个统一模型，依赖于一些已有的基准测试，这些测试针对诸如多模态理解、文本生成图像（T2I）以及经典图像编辑等明确定义的能力。然而，对于需要强多模态推理和复杂任务组合的能力，目前仍缺乏有效的评估策略。下面首先介绍评估过程中使用的现有基准测试，然后引入一个新的用于自由形式图像编辑（包括概念编辑）的评估套件，旨在揭示模型在多模态推理和复杂组合任务方面的能力。

多模态理解 采用六个广泛使用的基准测试——MME、MMBench (1.0-EN)、MMVet、MMMU、MathVista和 MMVP。它们共同构成了一个简洁但全面的测试平台，涵盖感知、认知和多模态推理，同时在对比最先进模型方面具有很强的判别力。

文本生成图像（Text-to-Image generation） 遵循 [11, 56] 的做法，在流行的 GenEval基准上报告结果。我们还采用了最近提出的 WISE 基准，它对文本生成图像中的复杂语义理解和世界知识整合能力进行了全面评估。此外，还补充了与现有最先进模型的定性对比，以辅助这些自动评估指标。

图像编辑 采用 GEdit-Bench作为主要评估套件，原因在于其与真实世界的相关性以及多样的编辑任务集合。该基准由从网页中抓取的真实用户请求构建，紧密贴合实际编辑需求。性能通过 GPT-4.1自动评分，也补充了定性示例，以提供更细致的评估。

智能图像编辑（Intelligent Image Editing） 提出IntelligentBench作为自由形式图像编辑能力的代理任务评估工具，该能力需要复杂的多模态推理和任务组合。IntelligentBench 的初始版本包含 350 个示例，每个示例由一个问题图像、问题文本和参考答案图像组成。评估使用 GPT-4o（版本：gpt-4o-2024-11-20）进行，它审阅一个完整的四元组——问题图像、问题文本、参考答案图像和模型生成图像。评估标准包括请求实现度、视觉一致性和基于知识的创造性，反映该基准对任务正确性与推理深度的关注。每个答案按 0 到 2 的评分标准打分。模型的最终得分通过汇总所有单项得分并归一化到 100 分制计算得出。借助 IntelligentBench，可以评估模型在图像编辑中进行推理与整合世界知识的能力。部分IntelligentBench的展示与定性结果见下图12。

涌现能力

涌现能力在大型视觉或语言模型的研究中已被广泛探讨。在本研究中，聚焦于统一多模态基础模型的背景下，采用了一个更聚焦的涌现能力定义：

当某种能力在早期训练阶段尚未出现，而在后续预训练中出现时，称其为涌现能力。

这种质变，通常被称为"相变"，表示模型行为的突然且剧烈的变化，无法通过训练损失曲线的外推来预测。有趣的是，在统一多模态扩展中也观察到了类似现象，即损失曲线并未明确显示新能力的涌现。因此，通过在历史检查点上评估一系列任务的性能来研究模型能力的涌现。具体而言，报告标准 VLM 基准测试上的平均性能作为多模态理解的代理，GenEval 分数用于评估生成能力，GEdit 分数和 IntelligentBench 分数分别用于评估模型在简单与复杂多模态推理中的能力。

有趣的是，不同任务呈现出不同的学习动态与饱和行为。如果以达到峰值性能 85% 所需的 token 数量作为指标，如图 7 所示，发现传统理解与生成基准测试相对较早饱和：分别在约和 token 处。相比之下，编辑任务（需要理解与生成能力）收敛更慢，仅在 token 后才达到 85% 的性能。

最显著的是 Intelligent Edit 任务——其设计目的是排除简单编辑案例，强调复杂多模态推理——需要 token 才能达到 85%，表现出与 [80] 中描述的涌现行为相似的模式。在该设置下，模型初期性能较低，但在看到 token 后逐渐显著提升。尽管传统编辑任务在 token 时分辨率提升影响不大，但 Intelligent Editing 的性能持续显著提升——从 15 提高到 45，在后期训练阶段实现三倍增长，凸显其对统一多模态推理的依赖性。我们进一步发现，理解能力，特别是视觉输入，在多模态推理中起关键作用：移除 ViT token 对 GEdit-Bench 几乎无影响，但会导致 Intelligent Edit 分数下降 16%，突显视觉语义推理在复杂编辑任务中的重要性。

尽管评估指标可能无法线性捕捉模型的真实能力——这可能导致虚假的涌现迹象，尽管这种情况不太可能——我们进一步通过检查不同训练检查点的生成输出来观察定性的涌现行为。如下图 8 所示，我们观察到与性能曲线一致的趋势：在看到 token 前，生成质量已较强，而在使用更高分辨率训练后， token 后质量略有提升。对于文本渲染，"hello" 和 "BAGEL" 的正确拼写能力在到 token 之间逐渐涌现。

在 Intelligent Editing 任务的定性可视化中也观察到了涌现行为（见下图9）。与上图 8 中仅涉及输入图像部分修改的传统编辑不同，Intelligent Editing 通常需要基于多模态推理生成全新概念。在 token 之前，模型倾向于以最小变化重现输入图像——当任务未被充分理解时的回退策略。然而，在看到 token 后，模型开始展现出清晰的推理能力，生成连贯且语义合理的编辑结果，与下图 7 中所示的涌现行为相一致。

主要结果

BAGEL 多模态能力定量与定性评估。首先在已有基准测试上评估其基本能力，包括图像理解和图像生成。随后报告其在现有图像编辑基准和 IntelligentBench 上的表现。然后，我们探索了带有显式推理的生成与编辑能力。在该设置中，允许 BAGEL 在生成最终输出之前产生中间思考步骤。发现这种推理显著提升了性能。最后，提供了展示 BAGEL 世界建模能力的定性可视化，包括世界导航与视频生成。

对 BAGEL 与最先进的开源多模态模型进行了广泛的基准对比，涵盖专用视觉理解模型与通用统一模型。我们的评估涵盖多种公开基准，以确保对模型能力的全面评估。

图像理解结果总结于下表4。在激活参数规模相当（7B）的情况下，BAGEL 在理解任务上优于现有的统一模型。例如，在 MMMU 和 MM-Vet 上分别比 Janus-Pro提高了 14.3 和 17.1 分。值得注意的是，MetaQuery-XL依赖于冻结的、预训练的 Qwen2.5-VL主干网络，这限制了其适应性。此外，与专用理解模型（如 Qwen2.5-VL 和 InternVL2.5）相比，BAGEL 在大多数基准测试上表现更优，表明我们的 MoT 设计在保持强大视觉理解能力的同时，有效缓解了任务冲突。

图像生成

在两个基准上评估图像生成性能：GenEval 和 WISE。如下表 5 所示，在与 MetaQuery-XL 相同的评估设置下，BAGEL 实现了 88% 的整体得分，优于专用生成模型（FLUX-1-dev：82%，SD3-Medium：74%）和统一模型（Janus-Pro：80%，MetaQuery-XL：80%）。即使不使用 LLM 重写器，BAGEL 也能达到 82%，超过了此前最强的统一模型 Janus-Pro-7B。

在 WISE 基准上，BAGEL 超越了除领先私有模型GPT-4o外的所有模型。这表明 BAGEL 在结合世界知识进行推理方面具有较强能力。

我们对 BAGEL 与 Janus-Pro 7B、SD3-medium 和 GPT-4o 进行了定性比较。如下图 10 所示，BAGEL 生成的图像质量明显优于 Janus-Pro 7B，同时也超越了广泛使用的专用文本生成图像模型 SD3-medium。此外，BAGEL 原生支持中英文提示词，并允许以任意宽高比进行生成。

图像编辑

使用 GEdit-Bench对 BAGEL 的经典图像编辑能力进行了进一步评估。如下表 7 所示，BAGEL 的表现可与当前领先的专用图像编辑模型 Step1X-Edit相媲美，并且优于 Gemini 2.0。此外，在新提出的 IntelligentBench 上报告了结果，如下表 8 所示，BAGEL 达到了 44.9 的性能，显著超过现有开源 Step1X-Edit 模型 30 分。

还在下图 11 和上图 12 中提供了在多种图像编辑场景下的定性比较，将 BAGEL 与 Gemini 2.0、GPT-4o、Step1X-Edit 和 IC-Edit进行了对比。如图所示，BAGEL 始终表现出优于 Step1X-Edit 和 IC-Edit 的性能，并且也超越了 Gemini 2.0 的能力。虽然 GPT-4o 能够成功处理这些场景，但它往往会对源图像进行非预期的修改，而 BAGEL 能有效避免这一问题。

带思维的生成/编辑

从定量和定性两个方面验证了增强推理的生成在各种基准测试下的有效性。

带思维的生成。 对于文本生成图像任务，在 WISE 上评估了 BAGEL 在生成前使用显式思维链（Chain-of-Thought, CoT）推理过程的效果。如下表 6 所示，带 CoT 的 BAGEL 得分为，比未使用 CoT 的版本高出，并显著优于所有现有开源模型（此前 SOTA：MetaQuery-XL，得分为）。除了定量评估，我们还在图 13a 中提供了可视化结果，在仅给出简短提示词时，BAGEL 无法生成正确图像，但在使用基于 CoT 的思维范式时则成功生成。

带思维的编辑。 如上表 8 所示，将 CoT 融入 BAGEL 后，其 Intelligent Score 从提升至。这一性能提升主要归因于推理的引入，使模型能够利用世界知识并提供详细的编辑指导。我们进一步在图 13b 中展示了 IntelligentBench 中的多个代表性案例，这些任务需要通用知识或多步推理。在这些场景中，当有思维内容引导时，BAGEL 显著提升了图像编辑能力。

世界建模

为了提升 BAGEL 在长序列视觉生成中的世界建模能力，通过增加训练配方中视频与导航数据的比例对模型进行了微调。对于导航任务，我们从视频交错序列中构建数据集，并使用 ParticleSfM标注摄像机轨迹。

在下图 14 中，展示了 BAGEL 的世界建模能力，包括世界导航、旋转以及多帧生成。

从图中可以看出，BAGEL 展现出强大的世界理解与模拟能力。它能够根据输入指令生成动态数量的图像，用于如导航与旋转输入图像等任务，或根据给定提示生成多张图像。此外，BAGEL 在世界理解方面表现出强泛化能力。例如，虽然仅在真实世界街景导航数据上训练，但它能够无缝扩展到水墨画、卡通和电子游戏等多种领域。

结论

BAGEL，一个统一的多模态理解与生成模型，在扩展统一预训练规模时展现出涌现能力。BAGEL 在标准多模态理解与生成基准上取得了顶尖性能，并通过强大的世界建模与推理能力进一步展现其优势。为了进一步推动多模态研究的发展，我们将 BAGEL 开源给研究社区。

参考文献

[1] Emerging Properties in Unified Multimodal Pretraining

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年5月21日星期三

多模态终极大一统！字节开源BAGEL爆火：图文生成理解双冠王，竟能预测未来画面？