AI I024: 多模态与生成正迈向终极大一统！阿里最新3万字长文梳理统一的多模态理解和生成模型

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Xinjie Zhang，Jintao Guo，Shanshan Zhao等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2505.02567
开源链接：https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models

亮点直击
阐述多模态理解与文生图模型的基础概念与最新进展;
继而梳理现有统一模型，将其归纳为三大架构范式：基于扩散的架构、基于自回归的架构，以及融合自回归与扩散机制的混合架构;
整理了适配统一模型的数据集与评测基准，为后续研究提供资源支持;
探讨了这一新兴领域面临的核心挑战，包括分词策略、跨模态注意力机制与数据问题。

近年来，多模态理解模型与图像生成模型均取得了显著进展。尽管二者各自取得了成功，这两个领域却沿着独立的路径发展，形成了截然不同的架构范式：自回归架构主导了多模态理解领域，而扩散模型则成为图像生成的基石。近期，构建统一框架以整合这两类任务的研究兴趣日益增长。GPT-4o展现的新能力正是这一趋势的例证，凸显了统一化发展的潜力。然而，两种架构间的显著差异带来了重大挑战。为清晰梳理当前研究进展，本文系统性地综述了该领域成果，旨在为未来研究提供指引。

引子

近年来，大语言模型（LLM）的快速发展——如LLaMa、PanGu、Qwen和GPT——彻底改变了人工智能领域。这些模型在规模与能力上的持续扩展，推动了跨领域应用的突破性进展。与此同时，LLM已延伸至多模态领域，催生出LLaVa、Qwen-VL、InternVL、Ovis和GPT4等强大的多模态理解模型。这些模型不仅实现了基础图像描述功能，更能基于用户指令执行复杂推理任务。另一方面，图像生成技术也取得显著进步，SD系列和FLUX等模型已能生成高度符合用户需求的高质量图像。

当前LLM与多模态理解模型主要采用自回归生成架构，其基于解码器唯一结构和下一词元预测机制实现序列化文本生成。而文生图领域则沿不同路径发展：早期以生成对抗网络（GAN）为主导，后转向基于扩散的模型。这类模型结合UNet、DiT等架构与CLIP、T5等先进文本编码器。尽管已有研究尝试采用LLM架构进行图像生成，扩散模型目前仍是性能最优的解决方案。

虽然自回归模型在图像生成质量上逊于扩散方法，但其与LLM的结构一致性对构建统一多模态系统极具吸引力。能同时理解与生成多模态内容的统一模型潜力巨大：既可基于复杂指令生成图像，又能推理视觉数据并通过生成输出实现多模态分析可视化。2025年3月GPT-4o增强能力的发布进一步凸显这一潜力，引发了学界对统一化的广泛关注。

然而，设计此类统一框架面临重大挑战：需要整合自回归模型在推理与文本生成上的优势，以及扩散模型在高保真图像合成上的鲁棒性。若干关键问题尚待解决，例如如何为自回归生成实现有效的图像分词。现有方案中，部分研究采用扩散模型中常用的VAE或VQ-GAN及其变体，另一些则使用EVA-CLIP和OpenAI-CLIP等语义编码器。此外，虽然离散词元是自回归模型中文本处理的标配，新近研究表明连续表征可能更适合图像词元。除分词策略外，混合架构通过将并行扩散策略与序列化自回归生成相结合，为纯自回归架构提供了有前景的替代方案。由此可见，统一多模态模型的图像分词技术与架构设计仍处于早期探索阶段。

为全面梳理当前统一多模态模型的研究现状（如下图1所示），助力未来研究发展，本文展开系统性综述。本文首先介绍多模态理解与图像生成的基础概念及最新进展，涵盖自回归与扩散两类范式；继而回顾现有统一模型，将其归类为三大架构范式：基于扩散的架构、基于自回归的架构，以及融合自回归与扩散机制的混合架构。针对自回归与混合类别，本文进一步根据图像分词策略进行细分，以反映该领域方法的多样性。

除架构外，本文还整理了适配统一多模态模型训练与评估的数据集和基准测试，覆盖多模态理解、文生图、图像编辑等相关任务，为后续研究提供资源支持。最后，本文探讨该新兴领域面临的核心挑战，包括高效分词策略、数据构建、模型评估等。解决这些挑战对提升统一多模态模型的能力与可扩展性至关重要。

学界已有关于大语言模型、多模态理解和图像生成的优秀综述，而本文聚焦于理解与生成任务的整合研究。建议读者结合这些互补性综述以获取更全面的领域认知。本文期望激发这一快速发展领域的更多研究，并为学界提供有价值的参考。本文涉及的参考文献、数据集和基准测试等材料将很快发布于GitHub，并将持续更新以反映最新进展。

初步

多模态理解模型

多模态理解模型是指基于LLM的架构，能够接收、推理并从多模态输入生成输出。这些模型将LLM的生成与推理能力扩展到文本数据之外，实现了对多种信息模态的丰富语义理解。现有方法的大多数研究集中于视觉-语言理解（VLU），该任务整合了视觉（如图像和视频）与文本输入，以支持对空间关系、对象、场景及抽象概念的更全面理解。图2展示了一个典型的多模态理解模型架构。这些模型在一个混合输入空间中运行，其中文本数据以离散形式表示，而视觉信号则被编码为连续表示。与传统LLM类似，其输出以离散token的形式从内部表示生成，使用基于分类的语言建模和任务特定的解码策略。

早期的VLU模型主要通过双编码器架构对视觉与文本模态进行对齐，在该架构中，图像与文本首先被分别编码，然后通过对齐的潜在表示进行联合推理，这些模型包括CLIP、ViLBERT、VisualBERT 和 UNITER。尽管这些开创性的模型确立了多模态推理的关键原则，但它们严重依赖基于区域的视觉预处理及独立的编码器，限制了模型的可扩展性与通用性。随着强大LLM的出现，VLU模型逐步转向采用仅解码器架构，这类架构通常结合冻结或最小微调的LLM主干。这些方法主要通过结构各异的连接器将图像嵌入转换，如下图2所示。具体而言，MiniGPT-4 使用单个可学习层将CLIP提取的图像嵌入投影到Vicuna的token空间中。BLIP-2 引入了一个查询Transformer，用于连接冻结的视觉编码器与冻结的LLM（如Flan-T5 或 Vicuna），以更少的可训练参数实现高效的视觉-语言对齐。Flamingo采用门控交叉注意力层将预训练的视觉编码器与冻结的Chinchilla解码器连接起来。

VLU的最新进展显示出向通用多模态理解转变的趋势。GPT-4V 将GPT-4框架扩展为支持用户提供的图像输入，尽管其为专有系统，但在视觉推理、图像描述与多模态对话方面展现出强大能力。Gemini构建于仅解码器架构之上，支持图像、视频与音频模态，其Ultra版本在多模态推理任务中设立了新基准。Qwen系列体现了可扩展的多模态设计：Qwen-VL引入视觉接收器与定位模块，而Qwen2-VL 增加了动态分辨率处理与M-RoPE，以实现对多样输入的鲁棒处理。LLaVA-1.5 与 LLaVA-Next使用基于CLIP的视觉编码器与Vicuna风格LLM，在VQA与指令跟随任务中取得了有竞争力的性能。InternVL系列探索了一种统一的多模态预训练策略，同时从文本与视觉数据中学习，以提升在各种视觉-语言任务中的表现。Ovis引入了一种结构性嵌入对齐机制，通过一个可学习的视觉嵌入查找表生成与文本token结构一致的视觉嵌入。近期，一些模型开始探索面向多模态处理的可扩展与统一架构。DeepSeek-VL2采用专家混合（Mixture-of-Experts, MoE）架构以增强跨模态推理。总体而言，这些模型清晰展现了向指令调优与token中心的框架发展的趋势，使其能够以统一且可扩展的方式应对多样的多模态任务。

文本生成图像模型

扩散模型。扩散模型（Diffusion Models, DM）将生成过程表述为一对马尔可夫链：一个前向过程逐步通过在个时间步上添加高斯噪声来扰动数据，生成；以及一个反向过程，通过学习一个参数化分布，逐步去噪回到数据流形上。如下图3所示，在前向过程中，给定数据分布，在每个时间步，数据被添加噪声，具体表示如下：

其中，是噪声的方差超参数。在反向过程中，模型逐步对数据进行去噪，以逼近马尔可夫链的反向过程。反向转移被参数化为：

网络对均值和方差进行参数化。该网络以加噪后的数据和时间步为输入，并输出用于噪声预测的正态分布参数。噪声向量由初始化，然后依次从学习到的转移核中采样：

直到为止。训练目标是最小化负对数似然的变分下界（Variational Lower-Bound）：

其中，是模型对时间步所加噪声的预测值，是该时间步实际加入的噪声。

早期的扩散模型使用 U-Net 架构来逼近 score function。U-Net 基于 Wide ResNet 构建，集成了残差连接和自注意力模块，以维持梯度传播并恢复图像的细节。这些方法大致可分为像素级方法和潜特征级方法：

像素级方法：直接在像素空间执行扩散过程。例如，GLIDE 引入了"无分类器引导"（classifier-free guidance），Imagen 使用预训练的大语言模型 T5-XXL 作为文本编码器。但这些方法计算开销大，训练与推理成本高。
隐空间扩散模型（LDMs）：在预训练的变分自编码器的隐空间中操作扩散过程，如[14] 所提出。LDMs 在保持高质量生成效果的同时显著提升了计算效率，启发了多种扩散生成模型的发展，包括 VQ-Diffusion、SD 2.0、SD XL 和 UPainting。

随着 Transformer 架构的发展，出现了基于 Transformer 的扩散模型。例如：

Diffusion Transformers (DiT) ：将输入图像分割为 patch 序列，并通过一系列 Transformer 块进行处理。DiT 以扩散时间步和条件信号作为附加输入。

DiT 的成功催生了更多先进的生成方法：

REPA：在扩散训练中注入自监督视觉特征以提升大规模性能；
SD 3.0：使用两组独立权重分别建模文本与图像模态；
其他方法。

文本编码器方面，这些方法主要采用对比学习，将图文模态对齐到共享的隐空间中，在大规模图文对 (image-caption pairs) 上共同训练图像和文本编码器。例如：

GLIDE：探索了 CLIP 指导与无分类器指导，展示出 CLIP 条件扩散方法优于早期 GAN 方法，且支持强大的文本编辑；
SD：使用冻结的 CLIP-ViT-L/14 编码器作为条件输入，生成高质量图像并具有良好计算效率；
SD 3.0：使用 CLIP ViT-L/14、OpenCLIP bigG/14 和 T5-v1.1 XXL 将文本转为嵌入以用于生成指导。

近期扩散模型的进展还融合了大语言模型（LLMs），进一步提升了文本到图像生成的对齐能力和生成质量：

RPG：利用多模态 LLM 的视觉语言先验，从文本提示中推理出补充的空间布局，并在文本引导图像生成与编辑中操控对象组合。

不过，这些方法通常需为特定任务设计不同的模型架构、训练策略和参数配置，增加了管理复杂性。更具可扩展性的解决方案是构建统一的生成模型，能够处理多种数据生成任务：

OmniGen：支持文本生成图像、图像编辑、主体驱动生成与视觉条件生成等多种任务；
UniReal：将图像任务视为不连续视频生成，统一支持生成、编辑、定制和合成；
GenArtist：通过多模态大模型协调统一图像生成与编辑；
UniVG：用一套权重处理多模态输入，实现多种下游应用。

随着该领域研究不断深入，预计将出现越来越统一的模型，能够处理更广泛的图像生成与编辑任务。

自回归模型（Autoregressive models）：自回归（AR）模型通过将序列的联合分布因式分解为条件概率的乘积来定义生成过程，其中每个元素都基于先前生成的所有元素进行预测。这一范式最初用于语言建模，如今已成功扩展至视觉领域，通过将图像映射为像素、patch 或潜编码的一维离散序列。形式上，给定一个序列，模型的训练目标是使每个元素在条件化前序元素的情况下生成：

其中，表示模型参数。训练目标是最小化负对数似然（NLL）损失：

如下图4所示，现有方法根据序列表示策略可分为三类：基于像素的模型、基于token的模型和基于多token的模型。

1）基于像素的模型。PixelRNN是首个用于预测下一个像素的前沿方法。它将二维图像转换为一维像素序列，并使用 LSTM 层根据先前生成的值逐个生成像素。尽管在建模空间依赖方面效果显著，但其计算成本较高。PixelCNN 引入膨胀卷积以更高效地捕捉远距离像素依赖关系，而 PixelCNN++采用离散化的逻辑混合似然函数和架构改进来提升图像质量和生成效率。一些进阶方法也提出了并行化策略，以降低计算开销，尤其是在高分辨率图像生成中提升速度。

2）基于token的模型。受自然语言处理范式启发，基于token的自回归（AR）模型将图像转换为离散token的紧凑序列，极大地缩短了序列长度，并支持高分辨率合成。这一过程始于向量量化（VQ）：通过重建损失和承诺损失训练的编码器-解码器学习到一个紧凑的潜在索引码本，之后仅用一个解码器Transformer对这些token建模条件分布。典型的VQ模型包括 VQ-VAE-2、VQGAN、ViT-VQGAN 等。许多工作专注于提升解码器Transformer的能力。LlamaGen将VQGAN的分词器应用于LLaMA骨干网络，在性能上可与DiTs媲美，且随着参数数量增加，生成质量也有所提升。与此同时，数据高效变体如 DeLVM在显著减少数据需求的前提下仍能保持图像质量；而像 AiM、ZigMa 和 DiM 等模型则引入了Mamba中的线性或门控注意力机制，以实现更快推理和更优性能。为了增强上下文建模，研究者提出了随机和混合解码策略。如 SAIM、RandAR 和 RAR 通过随机打乱patch预测顺序来克服固定扫描顺序的偏差，而 SAR 将因果学习泛化到任意顺序与跳跃间隔。混合框架进一步融合不同范式：如 RAL 使用对抗策略梯度缓解暴露偏差，ImageBART 将分层扩散更新与AR解码交替进行，DisCo-Diff则结合了离散潜变量与扩散解码器，获得领先的FID得分。

3）基于多token的模型。为提升生成效率，近来的AR模型由单token生成转向同时预测多个token，从而在不损失质量的前提下实现显著加速。Next Patch Prediction（NPP）将图像token聚合为高信息密度的patch级token，从而大幅减少序列长度。类似地，Next Block Prediction（NBP）将聚合扩展到更大的空间块（如整行或整个帧）。Neighboring AR（NAR）提出基于局部"邻居"机制向外预测，而 Parallel Autoregression（PAR）则将token划分为不重叠子集并发解码。MAR 放弃了离散token化和固定顺序，转而采用用扩散损失训练的连续表示。除空间聚合外，VAR引入粗到细的多尺度预测范式，并激发出一系列进阶方法，包括 FlowAR、M-VAR、FastVAR 和 FlexVAR。一些基于频率的方法则从频域分解生成过程：FAR 和 NFIG 先生成低频结构再细化高频细节。xAR 抽象统一了自回归单元，包括patch、cell、scale或整张图像，在统一框架下处理不同生成粒度。这些多token方法突显出合理定义自回归单元的重要性，在图像质量、生成效率和模型可扩展性之间实现平衡。

在自回归解码器中也逐步引入了控制机制，以实现更精细的图像编辑。ControlAR在解码过程中引入边缘图、深度图等空间约束，支持对token级的细粒度编辑。ControlVAR 在此基础上引入了尺度感知的条件机制，从图像整体特征进行调控，提升了图像的一致性与可编辑性。CAR 进一步扩展了上述思路，着重于构建更先进的控制机制，以增强图像细节和适应能力。对于多物体或时序一致性强的复杂场景，Many-to-Many Diffusion（M2M）将自回归框架扩展用于多帧生成，以保证图像间语义与时序的一致性。MSGNet 结合了VQ-VAE和AR建模，维持场景中多实体的空间-语义对齐。在医学领域，MVG 将自回归图像到图像的生成方式扩展到分割、图像合成与去噪等任务，并通过配对的提示图与图像进行条件建模。这些图像生成中的自回归方法提供了基础模型架构和视觉建模策略，有效推动了统一多模态理解与生成研究的发展。

统一的多模态模型：理解与生成

统一多模态模型旨在构建一个能够同时进行多模态数据理解与生成的统一架构。这类模型被设计用于处理多种形式的输入（如文本、图像、视频、音频），并以统一的方式生成一个或多个模态的输出。一个典型的统一多模态框架通常包含三个核心组件：模态特定编码器，用于将不同输入模态投影到同一表示空间；模态融合骨干网络，用于整合多模态信息并实现跨模态推理；以及模态特定解码器，用于在期望的模态中生成输出（如文本生成或图像合成）。

本节重点关注支持视觉-语言理解与生成的统一多模态模型，即以图像和文本为输入，并输出文本或图像的模型。如下图5所示，现有统一模型大致可分为三类：扩散模型（diffusion models）、自回归模型（autoregressive models），以及融合的AR+扩散模型（fused AR + diffusion models）。其中，自回归模型根据其模态编码方法进一步划分为四个子类：基于像素的编码（pixel-based encoding）、基于语义的编码（semantic-based encoding）、基于可学习查询的编码（learnable query-based encoding）以及混合编码（hybrid encoding）。每种编码策略代表了处理视觉和文本数据的不同方式，导致其多模态表示在集成度和灵活性方面各有差异。而融合的AR+扩散模型根据模态编码方式分为两类：基于像素编码和混合编码。这类模型结合了自回归与扩散技术的优势，为实现更统一、高效的多模态生成提供了有前景的路径。

接下来的各节将深入探讨每一类模型：

第3.1节探讨基于扩散的模型，分析其在从噪声表示中生成高质量图像和文本方面的独特优势。
第3.2节聚焦自回归模型，细致解析不同编码方法如何影响其在视觉-语言任务中的表现。
第3.3节介绍融合AR+扩散模型，探讨两种范式结合如何增强多模态生成能力。最后，本文将讨论任意对任意（any-to-any）多模态模型，它们将该框架扩展至图像与语言之外，支持音频、视频、语音等更多模态，目标是构建通用的生成模型。

3.1 扩散模型

扩散模型因具备多项关键优势，在图像生成领域取得了显著成功。首先，与生成对抗网络（GAN）相比，它们在样本质量方面表现更优，拥有更好的模式覆盖能力，并能缓解常见问题如模式崩溃和训练不稳定性。其次，扩散模型的训练目标是预测添加噪声后的数据中的噪声部分，这是一项简单的监督学习任务，避免了对抗式训练的复杂性。第三，扩散模型具有高度灵活性，可在采样过程中加入各种条件控制信号，如分类器引导和无分类器引导，从而提升可控性和生成质量。此外，随着噪声调度机制和加速采样技术的改进，扩散模型的计算开销大幅降低，变得更加高效和可扩展。

基于这些优势，研究人员将扩散模型从单一模态任务扩展至多模态生成，目标是在统一框架下同时支持文本和图像的输出。如图5(a)所示，在多模态扩散模型中，去噪过程不仅依赖于时间步和噪声，还依赖于多模态上下文，如文本描述、图像或联合嵌入。这一扩展使得不同模态的同步生成成为可能，并促成了生成结果之间丰富的语义对齐。

一个具有代表性的例子是 Dual Diffusion，其提出了一个双分支扩散过程，用于联合文本和图像生成。具体来说，给定一个文本-图像对，Dual Diffusion 首先使用预训练的 T5 编码器对文本进行 softmax 概率建模，从而获得离散的文本表示；同时使用 Stable Diffusion中的 VAE 编码器对图像进行编码，以获得连续的图像潜表示。这两个模态的潜表示会分别通过各自的正向扩散过程添加噪声，得到每个时间步上的噪声潜变量。

在反向去噪过程中，模型使用两个模态特定的去噪器联合去噪文本和图像潜表示：一个基于 Transformer 的文本去噪器和一个基于 UNet 的图像去噪器。关键在于，在每个时间步，两个去噪器都引入了跨模态的条件控制：文本潜表示关注图像潜表示，反之亦然，这使得在整个去噪轨迹中实现了模态间的语义对齐。

去噪完成后，文本潜表示通过 T5 解码器解码为自然语言，而图像潜表示则通过 VAE 解码器解码为高保真图像。训练过程中采用两个独立的损失项进行监督：图像分支最小化标准的噪声预测损失，文本分支则最小化对比式对数损失（contrastive log-loss）。通过耦合两个扩散链，并引入明确的跨模态交互，Dual Diffusion 实现了从纯噪声出发的连贯、可控的多模态生成。

尽管 Dual Diffusion 在联合文本与图像生成方面展现了潜力，但仍面临若干局限。其计算效率受限于多次扩散迭代的需求，速度慢于 GAN 或自回归模型。双分支架构增加了模型复杂性与训练不稳定性。此外，虽然跨模态条件有助于模态对齐，但对噪声水平仍较为敏感，可能导致输出质量不佳。最后，对于生成细节的精细控制仍具挑战，模型在处理分布外数据时的泛化能力也有待提升。

3.2 自回归模型（Auto-Regressive Models）

在统一多模态理解与生成模型中，一个主要方向是采用自回归（AR）架构，其中视觉和语言标记（tokens）通常被串行化并按顺序建模。在这些模型中，主干 Transformer 模型（通常是从大语言模型 LLMs，如 LLaMA 系列，Vicuna，Gemma 系列以及 Qwen 系列中适配而来）作为统一的模态融合模块，用于自回归地预测多模态输出。

如图 5 所示，为了将视觉信息整合进 AR 框架，现有方法提出了多种图像标记化策略。这些策略大致可分为四类：基于像素的编码、基于语义的编码、基于可学习查询的编码，以及混合式编码方法。

1）基于像素的编码（Pixel-based Encoding）

如图 5 (b-1) 所示，基于像素的编码通常是指将图像表示为从预训练自动编码器中获得的连续或离散标记，这些编码器通常仅在图像重建任务上进行监督训练，例如 VQGAN 类模型。这些编码器将高维像素空间压缩为紧凑的潜在空间，其中每个空间补丁对应一个图像标记。在统一的多模态自回归模型中，从这类编码器序列化得到的图像标记可类比于文本标记进行处理，从而实现单序列内的两种模态建模。

近期工作中，不同模型采用并增强了像素标记化的编码设计。LWM 使用 VQGAN 标记器将图像编码为离散潜在代码，而无需语义监督，并提出了多模态世界建模框架，在该框架中图像和文本标记被串联处理，实现统一的自回归建模。通过仅使用重建驱动的图像标记与文本描述进行世界动态建模，LWM 展示了即使不使用语义标记化，也能实现大规模的多模态生成。

Chameleon和 ANOLE均采用了 VQ-IMG，这是一种改进型 VQ-VAE 变体，适用于内容丰富的图像生成。VQ-IMG 拥有更深的编码器、更大的感受野，并加入了残差预测机制，以更好地保留复杂的视觉细节。通过这些增强，Chameleon 和 ANOLE 能够更忠实地序列化图像内容，支持高质量的多模态生成。此外，这些模型还支持交错生成（interleaved generation），即在统一的自回归框架中交替生成文本和图像标记。

Emu3、SynerGen-VL 和 UGen 采用了 SBER-MoVQGAN，这是一种多尺度的 VQGAN 变体，能编码包含全局结构和细粒度细节的潜在图像表示。通过多尺度标记化，这些模型增强了视觉表示的表达力，同时保持了训练的效率。

与 LWM类似，Liquid 也使用 VQGAN 式的标记器，并揭示了一个新发现：在统一的自回归目标和共享的视觉标记表示下，视觉理解与生成可以互相促进。此外，MMAR、Orthus 和 Harmon 引入了使用连续值图像标记的框架，通过提取连续潜在表示来避免离散化所带来的信息损失。这些方法还通过在每个自动回归图像块嵌入上添加轻量级扩散头，将扩散过程从 AR 主干中解耦，从而避免主干表示局限于最终的去噪步骤，有助于更好的图像理解。

除 MMAR 和 Harmon外，这类模型在预训练和生成阶段均使用因果注意力掩码，确保每个标记只能关注其序列中之前的标记。它们采用"下一个标记预测"损失函数进行训练，图像与文本标记均以自回归方式进行预测，从而实现了跨模态统一的训练目标。

在基于像素的编码方法中，图像重建通常采用 VQGAN 类模型中提出的配对解码器结构。这些解码器是轻量级卷积架构，主要用于将离散潜在网格准确还原为像素空间，专注于低级别的重建，而非高级语义推理。

此外，部分方法如 MMAR、Orthus 和 Harmon 采用连续潜变量进行图像标记化，因此它们使用轻量扩散 MLP 解码器将连续潜变量映射回像素空间。

尽管有效，基于像素的编码方法仍面临一些固有局限：

首先，视觉标记仅为像素重建而优化，通常缺乏高级语义抽象能力，使图文之间的对齐更加困难；
其次，该方法倾向于生成密集的标记网格，尤其是在高分辨率图像下，造成相比文本模型更长的序列长度，从而显著增加自回归训练和推理的计算与内存开销，限制了可扩展性；
最后，由于视觉编码器以重建为主的目标进行训练，生成的视觉标记可能保留过多模态特定的偏差，如对纹理或低级图案的过度敏感，这不利于语义理解或细粒度跨模态推理。

2）语义编码（Semantic Encoding）

为克服像素编码中缺乏语义的问题，越来越多的工作采用语义编码，即使用预训练的、与文本对齐的视觉编码器（如 OpenAI-CLIP、SigLIP、EVA-CLIP 或更新的统一标记器 UNIT）来处理图像输入，如图 5 (b-2) 所示。这类模型通常在大规模图文对数据集上，以对比学习或回归目标进行训练，生成的视觉嵌入能够与语言特征在共享语义空间中对齐，从而更有效地实现跨模态对齐，有利于多模态理解与生成任务。

多种代表性模型基于不同语义编码器和架构设计，支持统一的多模态任务。Emu、Emu2和 LaViT均采用 EVA-CLIP作为视觉编码器。Emu 首次提出了将冻结的 EVA-CLIP 编码器、大语言模型和扩散解码器结合的架构，统一支持 VQA、图像描述和图像生成。Emu2 在此基础上，提出了更简洁、可扩展的预训练框架，将模型参数规模扩大到 37B，显著提升理解与生成能力。LaViT在 EVA-CLIP 基础上引入了动态视觉标记机制，利用选择器与合并模块，根据图像内容复杂度自适应选择视觉标记序列长度，从而减少冗余信息并保留关键视觉特征，提升了训练效率和生成质量，适用于图像描述、问答和生成等任务。

DreamLLM、VL-GPT、MM-Interleaved 和 PUMA 采用 OpenAI-CLIP 编码器。DreamLLM 使用轻量线性投影对 CLIP 嵌入与语言标记对齐；VL-GPT在 CLIP 视觉编码器后接强大的因果 Transformer，有效保留语义信息与图像细节。MM-Interleaved和 PUMA 利用简单的 ViT-Adapter 或池化操作从 CLIP 编码器中提取多粒度图像特征，支持丰富的多模态生成。

Mini-Gemini 引入了视觉标记增强机制，采用双语义编码器：一个 CLIP 预训练的 ViT 编码器提取全局视觉标记，另一个 LAION 预训练的 ConvNeXt 编码器提供密集的局部信息。通过交叉注意模块将局部视觉信息注入到全局标记中，再与文本标记融合输入至 LLM 进行联合建模，有效融合语义抽象与像素细节。

MetaMorph使用 SigLIP提取视觉嵌入，并在语言模型多个 Transformer 层中插入模态特定适配器，支持更深层的视觉语言交互，相较浅层投影方法效果更好。ILLUME采用 UNIT作为视觉编码器，提供语义对齐与像素保真之间平衡的统一表示。不同于仅使用对比损失的 CLIP 类模型，UNIT 同时以图像重建和对比对齐目标进行训练，生成兼顾理解与生成任务的图像标记。ILLUME 基于 UNIT 的强大标记器，在图像描述、问答、文本生成图像与交错生成等任务上表现优异。

类似地，VILA-U和 Unitok 模仿 UNIT，引入图文对比学习，提出一种新型的文本对齐视觉标记器，在语义对齐与像素保真之间实现有效平衡。

在大多数此类模型中，在MLLM（多模态大语言模型）训练期间会应用因果注意力掩码，并采用下一标记预测损失来同时优化文本和视觉标记的生成。在图像生成方面，大多数模型通常采用基于扩散的解码器，如SD-v1.5、SD-v2.1、SDXL 或 IP-adapter，这些解码器与MLLM是独立训练的。在推理阶段，MLLM生成语义级视觉标记，然后将其传递给扩散解码器以进行最终图像合成。这种将语义编码器与扩散解码器配对的设计选择，是基于以下事实：语义嵌入编码了高层次的概念信息，但缺乏直接进行像素重建所需的空间密度和低层次细节。扩散模型通过其迭代去噪机制，特别适合此场景：即使输入标记稀疏或抽象，它们也能逐步将语义表示细化为高分辨率、逼真的图像。相比之下，尽管一些方法（如 VILA-U 和 Unitok）采用像素级解码器，但其生成的图像质量通常不如扩散解码器。因此，扩散解码器为语义压缩的视觉标记提供了更强大、更具表现力的解码路径，显著提升了文本-图像对齐、整体连贯性和视觉保真度。

尽管语义编码具有上述优势，但也存在一些局限性。首先，由于缺乏低层次细节，生成的视觉标记在像素级控制上较弱，难以进行精细图像编辑、局部修复或结构保持的变换。其次，语义编码器通常仅提供全局或中层表示，对于需要空间对应关系的任务（如指代表达分割或姿态精确合成）来说可能不够充分。最后，由于语义编码器与扩散解码器通常是分开训练的，缺乏端到端的优化，这可能导致MLLM输出与解码器预期之间的不匹配，进而偶发语义漂移或生成伪影。

3）可学习查询编码（Learnable Query Encoding）

可学习查询编码作为一种生成自适应、任务相关图像表示的有效策略逐渐兴起。如图5(b-3)所示，该方法不再完全依赖固定的视觉标记器或密集图像块，而是引入一组可学习的查询标记，这些标记从图像特征中动态提取信息。这些查询标记充当感知内容的探针，与视觉编码器交互，以生成紧凑且语义对齐的嵌入，适用于多模态理解与生成。

当前的可学习查询编码实现可大致分为两类代表性范式。第一类由SEED代表，提出一种种子标记器（seed tokenizer）以学习因果视觉嵌入。具体来说，输入图像首先通过BLIP-2的ViT编码器被编码为密集标记特征，然后将其与一组可学习查询标记拼接，并通过因果Q-Former处理以生成因果视觉嵌入。该设计在图像-文本对比学习与图像重建监督下训练，使得所学嵌入同时保留低层视觉细节与高层语义对齐信息。基于这一基础，SEED-LLAMA 与 SEED-X 通过将OPT主干替换为更强的LLaMA2模型并将解码器升级为UnCLIP-SD或 SDXL ，从而提升了模型在理解与生成任务中的性能。

第二种方法由MetaQueries提出，提供了一个简化版本的可学习查询编码方案。在此方法中，图像特征通过一个冻结的SigLIP编码器提取，然后与可学习查询标记拼接，并直接输入到如LLaVA 或 Qwen2.5-VL等冻结的视觉-语言主干模型中。输出的因果嵌入用于扩散解码器的条件输入，从而实现高质量图像生成。由于主干模型保持冻结，该方案在保留预训练模型视觉语言理解能力的同时，提供了一种轻量且高效的多模态生成解决方案。

这些基于可学习查询的设计具有一个共同优势：它们提供了自适应、紧凑且语义丰富的表示，既支持高效图像理解，也可实现高质量图像生成。通过聚焦于任务驱动的标记提取，这类模型为传统视觉标记器提供了一个灵活且可扩展的替代方案，尤其适用于统一多模态框架。

尽管具有灵活性与良好效果，可学习查询编码也存在一些限制，可能会影响其广泛应用。首先，一个关键挑战是可学习查询标记带来的计算开销增加。随着查询标记数量增长，模型的内存消耗与计算复杂度可能显著上升，尤其是在扩展至大型数据集或更复杂多模态任务时。其次，如SEED 和 MetaQueries所示，依赖冻结或预训练的主干网络可能限制视觉特征对下游任务的适应能力。虽然冻结可降低训练成本并保留预学习知识，但也限制了模型在动态对齐图像特征与不断变化的查询语义方面的能力，尤其在更复杂或组合性任务中更为明显。最后，虽然可学习查询能够有效捕捉任务相关内容，但其在处理多样化视觉内容方面未必均衡。例如，对于包含多个对象、细粒度细节或模糊视觉线索的复杂场景来说，相对少量的查询标记可能无法充分捕捉图像中的丰富性与变异性。这一局限在模型需生成高度精细输出时尤为明显，因为固定或较少的查询集合可能不足以涵盖某些上下文中的全部视觉信息。

4）混合编码（Hybrid Encoding）

为了解决单一模态视觉表示的固有限制，统一多模态模型中引入了混合编码策略。基于像素的编码方法（如 VQ-VAE 或 VQGAN）擅长保留细粒度的视觉细节，但在与文本的语义对齐方面表现欠佳。相比之下，基于语义的编码器（如 SigLIP 或 CLIP 变体）生成的表示具有丰富的语义信息，但不擅长保留图像的低层次细节。混合编码旨在通过将像素级和语义级特征整合为统一表示，结合两者的优点。根据像素标记和语义标记的整合方式不同，混合编码方法可大致分为两类：伪混合编码（pseudo hybrid encoding）与联合混合编码（joint hybrid encoding）。

伪混合编码（Pseudo Hybrid Encoding）这一类别的代表性工作包括 Janus、Janus-Pro、OmniMamba 和 Unifluid。如图 5(b-4) 所示，这些模型采用双编码器架构——通常包括语义编码器（例如 SigLIP）和像素编码器（例如 VQGAN 或 VAE）——但以任务为导向的方式使用它们。在训练过程中，语义编码器被用于视觉-语言理解任务，而像素编码器则用于图像生成任务。尽管两种编码器通过混合的理解与生成数据进行联合训练，但在推理阶段不会启用像素编码器。

这种设计的动机在于：通过同时训练理解和生成任务，可以提升两个方向的性能。然而，由于任一时刻仅激活一个编码器，这些模型并未充分发挥混合编码的潜力。具体而言，它们在图像生成任务中错失了利用语义信息进行语义对齐的机会，同时在理解任务中也无法充分利用图像的高保真细节。因此，这些模型通常使用像素解码器从潜在编码中重构图像。

联合混合编码（Joint Hybrid Encoding）如图 5(b-5) 所示，联合混合编码方法将语义与像素令牌整合为统一输入，供语言模型或解码器使用，从而实现两种表示的同时利用。代表性工作包括 MUSE-VL、VARGPT、VARGPT-1.1 和 ILLUME+。这些模型在融合策略上存在差异：MUSE-VL 在通道维度上拼接 SigLIP 与 VQGAN 的特征后输入 LLM；而 VARGPT、VARGPT-1.1 和 ILLUME+ 则在序列维度上拼接语义与像素令牌，并同时输入给 LLM。

通过结合语义信息与高保真视觉细节，联合混合编码可提升多模态理解与生成的鲁棒性与表达力。这些模型支持使用像素解码器（如 VQGAN、Infinity、VAR-D30）以及基于扩散的解码器（如 SDXL），从而生成在语义对齐与视觉逼真度方面更优秀的图像。

尽管混合编码通过整合像素级与语义级的互补优势展现出巨大潜力，但仍面临诸多限制。许多伪混合方法在推理时并不同时启用两个编码器，从而未能利用二者的协同效果。即便是联合混合方法，在处理异质令牌融合时也可能引入模态不平衡或冗余，若未加以妥善管理，可能影响下游任务表现。此外，双编码器架构显著增加了计算与内存开销，尤其在高分辨率或长序列任务中，存在扩展性挑战。像素与语义令牌之间的对齐仍然是一项非平凡的问题，隐式的不匹配可能导致表征混乱或监督信号冲突。在训练数据稀缺或数据噪声较大时，这类错配尤为明显。

3.3 融合自回归与扩散模型（Fused Autoregressive and Diffusion Models）

融合自回归（AR）与扩散建模近期作为一种强大的视觉-语言统一生成框架快速兴起。在该范式中，文本令牌采用自回归方式生成，保留大语言模型的组合推理能力；而图像令牌则通过多步去噪扩散过程生成，遵循扩散模型原理。该混合策略使图像生成过程不再依赖严格的序列顺序，从而提升视觉质量与全局一致性。

代表性模型包括 Transfusion、Show-o、MonoFormer 和 LMFusion。在生成过程中，这些模型将噪声添加至视觉潜表示，并通过条件化在已生成文本或跨模态上下文基础上进行多步去噪。尽管这种设计会因多轮采样带来更高的推理开销，但在符号控制与图像质量之间实现了有效权衡，特别适用于高质量的视觉-语言生成任务。

现有融合 AR + 扩散模型通常采用以下两种图像编码策略：基于像素的编码与混合编码。

1）基于像素的编码（Pixel-based Encoding）

如图 5(c-1) 所示，该策略将图像转化为离散令牌或连续潜向量，随后将其作为扩散过程的目标，并由自回归生成的文本令牌进行条件引导。在近期工作中，Transfusion、MonoFormer 和 LMFusion 均采用由 SD-VAE 提取的连续潜表示。它们共享一个训练目标，即结合语言建模的自回归损失与图像重构的扩散损失，同时利用双向注意机制保证空间一致性。

尽管整体框架相似，但各模型在架构上各具特色：

Transfusion 提出了一个统一 Transformer 主干网络，使用模态专属的子层同时处理离散与连续输入；
MonoFormer 则采用紧凑架构，通过共享模块与任务相关的注意力屏蔽机制在 AR 与扩散任务间取得平衡；
LMFusion 允许冻结的 LLM 执行高质量图像生成，其轻量视觉注入模块在不影响语言能力的前提下，仅训练视觉分支。

相较而言，Show-o 使用基于 MAGVIT-v2 的离散像素编码器，以符号化图像令牌的方式适配 Transformer 解码流程。它支持自回归文本生成与扩散图像合成，同时使用自回归与扩散损失联合监督。

这些模型共同验证了像素编码在实现语言模型语义控制与扩散模型高保真图像生成之间的有效平衡。

然而，这类像素编码方法也面临一系列问题：

使用 SD-VAE 提取连续潜表示会带来训练与推理过程中的大量计算开销，尤其是在高分辨率图像或多轮交互任务中更为明显；
文本与图像模态的对齐仍是挑战。尽管使用双向注意机制促进模态融合，但 SD-VAE 中的隐空间通常由无监督重建目标学习而来，可能与语言语义信息对齐不足，导致细粒度控制能力减弱或生成可解释性降低；
离散编码方案（如 Show-o）存在 VQ 模型常见的问题，例如代码本坍塌与细节能力受限，使其在视觉多样性与重建质量方面略逊于连续表示方法。

2）混合编码（Hybrid Encoding）：

如前面图 5(c-2) 所示，混合编码结合语义特征（如来自 CLIP 或 ViT 的编码器）与像素级潜表示（如来自 SD-VAE），从而构建更具表现力的图像表示方式。该方法允许模型在保留语义抽象能力的同时，也捕捉视觉细节。

代表性方法是 Janus-Flow，其采用双编码器架构，并提出一个精简的架构用于将自回归语言模型与整流流模型（rectified flow）整合。它解耦了理解与生成编码器，使用 SigLIP 作为视觉编码器进行多模态理解，使用 SDXL-VAE 执行图像生成。然而，由于其伪混合编码设计，在图像合成过程中仅激活像素编码器，限制了模型在生成时利用语义信息的能力，从而可能影响细粒度对齐与生成任务中的多模态组合能力。

尽管取得了一定进展，混合编码方法仍面临多个挑战：

双编码器架构与 AR+扩散流程的结合提高了模型复杂度，带来更高的计算成本与训练时间，整体效率低于简单模型；
实现语义特征与像素特征的有效对齐需要精心设计与优化，而这一过程往往非常复杂，制约了模型在两种模态间的协同能力；
在统一模型中同时优化视觉-语言理解与图像生成任务，可能导致权衡问题，即提升一个任务可能以牺牲另一个任务为代价。

这些限制凸显出对更高效混合设计的迫切需求，即能在降低开销的同时，充分利用视觉与语义特征的优势，并在多任务中保持高性能。

3.4 任意对任意多模态模型

早期的统一多模态模型主要集中在文本-图像对上，而最近的研究则扩展到了任意对任意的多模态建模。这种雄心勃勃的方法旨在创建能够处理和生成各种模态的模型，包括音频、视频、语音、音乐等。这些模型的目标是将特定模态的编码器和解码器统一到单一架构中，从而实现文本到音频、视频到文本、语音到音乐甚至图像到视频的生成任务。本节回顾了该新兴领域的代表性作品，重点介绍了它们的设计原则、模块化结构和当前的局限性。

大多数任意对任意模型采用模块化设计，每种模态配备专门的编码器和解码器，而共享的主干网络则促进跨模态表示学习和序列建模。例如，OmniFlow 集成了用于音频和音乐生成的 HiFiGen，用于图像处理的 SD-VAE，并使用类似 DiT 的扩散模型（MMDiT）作为主干。该模块化设计使得模型能够高效地结合不同模态进行复杂的生成任务。

一些模型依赖于共享嵌入空间，通过特征层次上统一不同模态。例如，Spider、X-VILA 和 Next-GPT利用 ImageBind —— 一种对比训练的模型，将六种模态（文本、图像、视频、音频、深度和热成像）映射到单一的嵌入空间中。这种统一表示使得通过特定模态的解码器进行灵活的条件生成成为可能，如 Stable Diffusion、Zeroscope 或基于 LLM 的文本解码器。虽然这一方法理论上优雅，但其生成能力常常受到解码器质量和共享嵌入粒度的限制。

其他模型，如 AnyGPT 和 Unified-IO 2，将序列到序列范式扩展到处理多模态。AnyGPT 使用 EnCodec进行音频标记化，SpeechTokenizer进行语音处理，并训练了一个统一的 Transformer 模型，通过模态特定的前缀进行训练。另一方面，Unified-IO 2采用了更加结构化的编码器-解码器设计，包含视觉、音频和语言模态，支持像 AST 到文本、语音到图像或视频字幕生成等任务。

尽管取得了令人鼓舞的进展，当前的任意对任意模型仍面临一些挑战。其中一个关键问题是模态不平衡，文本和图像模态往往占主导地位，而音频、视频和音乐等模态则被代表不足，这限制了这些模型所能处理的任务多样性。另一个挑战是可扩展性，支持广泛的模态增加了模型的复杂性，导致更高的推理延迟和更大的资源需求。此外，确保跨模态的语义一致性仍然是一个非平凡的任务，模型通常难以保持输出的实用性和一致性。这些挑战仍然是任意对任意多模态模型发展的研究方向。

尽管如此，这些模型代表了朝着开发能够跨越整个感知和交流领域理解和生成的通用基础模型迈出的重要一步。随着数据、架构和训练范式的不断发展，未来的任意对任意模型预计将变得更加组合化、高效，并能够实现真正的跨模态生成。

多模态统一模型的数据集

大规模、高质量且多样的训练数据是构建强大统一多模态理解和生成模型的基础。这些模型通常需要在大量的图像-文本对上进行预训练，以学习跨模态的相关性和表示。需要注意的是，在对大规模多模态数据进行训练之前，这些模型通常会使用来自大规模自然语言语料库（如Common Crawl 1、RedPajama、WebText等）的训练参数进行初始化。由于本综述主要集中在多模态模型上，因此本节讨论将排除纯文本数据。根据主要用途和模态特征，常见的预训练多模态数据集可以大致分为以下几类：多模态理解数据集、文本到图像生成数据集、图像编辑数据集、交替图像-文本数据集以及其他基于文本和图像输入的图像生成数据集。本节将详细介绍下表3中列出的每个类别的代表性数据集，重点关注2020年以后发布的数据集。

多模态理解数据集

这些数据集主要用于训练模型的跨模态理解能力，支持图像字幕生成、视觉问答（VQA）、图像-文本检索和视觉定位等任务。它们通常包含大量与相应文本描述配对的图像。

RedCaps：该数据集包含来自 Reddit 的1200万个图像-文本对，专门捕捉日常物品和时刻（如宠物、爱好、食物、休闲等），这些内容经常出现在社交媒体平台上。
Wukong：Wukong 数据集是一个大规模的中文多模态预训练数据集，包含1亿个来自网络的中文图像-文本对。该数据集的创建解决了大规模高质量中文多模态预训练数据的不足，对于针对中文场景的多模态模型发展起到了重要作用。
LAION：LAION（大规模人工智能开放网络）项目提供了最大规模的公开图像-文本对数据集之一。例如，LAION-5B 包含近60亿个图像-文本对，这些数据来自网络爬虫。使用 CLIP 模型对数据进行过滤，确保图像和文本之间具有一定的相关性。由于其庞大的规模和多样性，LAION 数据集已经成为许多大型多模态模型预训练的基础。其子集 Laion-COCO 包含6亿个样本，提供高质量的字幕，旨在提供与 MS COCO 在风格上更加接近的大规模数据集。
COYO：COYO 是另一个大规模图像-文本对数据集，包含约7.47亿个样本。与 LAION 类似，它是通过网络爬虫获得的，并经过过滤过程。它为社区提供了 LAION 以外的另一种大规模预训练资源。
DataComp：DataComp 包含14亿个样本，来源于 Common Crawl，通过精心设计的过滤策略（CLIP评分和基于图像的过滤）获得，旨在提供比原始爬取数据更高质量的图像-文本对。
ShareGPT4V：该数据集提供约10万个高质量的图像-文本对话数据点，专门用于增强大型多模态模型的指令跟随和对话能力，使其成为更好的对话代理。
CapsFusion-120M：这是一个大规模的数据集，包含来自 Laion-COCO的1.2亿个图像-文本对。其字幕通过将 Laion-COCO 中的字幕与 CapsFusion-LLaMA结合获得。
其他数据集：最近开发的其他理解数据集包括 GRIT（基于网格的图像-文本表示）（20M 样本，强调细粒度的图像区域-文本短语对齐）。此外，虽然 SAM 数据集最初并不包含图像-文本对，但它收录了1100万张高分辨率图像和详细的分割掩模，提供了有价值的空间和语义信息，可以增强多模态模型的细粒度理解能力，比如理解物体的位置、边界或执行区域特定操作。

文本到图像数据集

这些数据集主要用于训练生成与文本描述相对应的图像的模型。它们通常由图像-文本对组成，通常更强调图像的审美质量、内容的丰富性或特定的风格属性。

CC-12M (Conceptual Captions 12M)：CC-12M包含约1200万个从网络Alt-text中提取并过滤的图像-文本对。与原始的网页抓取数据相比，其文本描述通常更加简洁和描述性，使其成为训练文本到图像模型的广泛使用的数据集。
LAION-Aesthetics：这是LAION数据集的一个子集，通过使用审美评分模型进行过滤，选择大约1.2亿张被认为具有较高"审美价值"的图像（及其文本）。
Mario-10M 和 AnyWord-3M ：这两个数据集关注图像中文字的准确渲染。Mario-10M（1000万个样本）用于训练TextDiffuser模型，AnyWord-3M（300万个样本）用于训练AnyText，提供专门设计的数据，用于提高生成图像中文本的可读性和位置。
JourneyDB：JourneyDB包含400万个由Midjourney平台生成的高质量图像-提示对。由于Midjourney以生成创意和艺术性图像而闻名，这个数据集为训练模型学习复杂、详细和艺术风格的文本到图像映射提供了宝贵的资源。
CosmicMan-HQ 1.0：该数据集包含600万个高质量的真实世界人像图像，平均分辨率为1488 × 1255像素。这个数据集的特色在于其精确的文本注释，来自1.15亿个不同粒度的属性。它可以用于提高生成人体图像的能力。
PixelProse：PixelProse从DataComp、CC-12M和RedCaps中提取，包含丰富注释的图像及其对应的文本描述。这个数据集提供了如水印存在与否、审美分数等有价值的元数据，可以用于过滤出符合期望的图像。
Megalith：Megalith是一个数据集，包含约1000万个Flickr图像链接，分类为"照片"，并具有不受版权限制的许可。社区使用如ShareCaptioner、Florence2和InternVL2等模型生成的字幕公开提供。
PD12M：PD12M包含1240万张高质量的公共领域和CC0许可图像，这些图像与使用Florence-2-large生成的合成标题配对。该数据集专为训练文本到图像模型设计，提供了大量的资源，并最大限度地减少了版权问题。
其他数据集：SAM数据集（约1100万张高分辨率图像）和DenseFusion（100万个样本）是其他可能的数据源，用于训练文本到图像生成模型。需要注意的是，多模态理解数据集可以通过审美分数过滤、NSFW过滤、分辨率过滤、水印过滤、重新标题等方式，用于合成文本到图像生成数据，但此处未作介绍。

图像编辑数据集

随着模型能力的提升，基于指令的图像编辑已成为一个重要的研究方向。此类数据集通常包含（源图像、编辑指令、目标图像）的三元组。这些数据集用于训练模型根据文本指令修改输入图像，从而增强统一模型的理解和生成能力。

InstructPix2Pix：该数据集采用创新的合成方法生成：首先，使用大语言模型（如GPT-3）生成编辑指令和目标图像的标题；然后，使用文本到图像模型（如Stable Diffusion）根据原始和目标标题生成"前后"图像。此方法自动创建了约313K（指令、输入图像、输出图像）训练样本。
MagicBrush：MagicBrush是一个高质量的、人工注释的数据集，用于基于指令的图像编辑。它包含约10K样本，涵盖各种现实且精细的编辑操作（如物体添加/移除/替换、属性修改、风格转换），并提供了编辑区域的掩码。其人工注释使得指令更加自然和多样。
HQ-Edit，SEED-Data-Edit，UltraEdit，OmniEdit，AnyEdit：这些是近年来更大规模的图像编辑数据集。例如，SEED-Data-Edit包含370万个样本，UltraEdit有400万个样本，AnyEdit提供250万个样本，OmniEdit包含120万个样本，HQ-Edit包含19.7万个样本。它们通常结合了自动生成与人工过滤/注释，旨在提供更大规模、更高质量和更多样化的编辑指令和图像对，用于训练更强大的指令跟随编辑模型。

图像-文本交织数据集

除了由配对图像和标题组成的数据集之外，另一个重要的类别是图像-文本交织数据集。这些数据集包含文档或序列，其中文本和图像自然地交替出现，类似于网页或文档中的内容。对这些交织数据进行训练，可以增强模型理解和生成多模态内容的能力，这是统一模型的一个重要目标。

Multimodal C4 (MMC4)：MMC4通过算法将图像交织到来源于Common Crawl的文本文档中，从而增强了大规模文本-only C4语料库。该公共数据集包含超过1.01亿个文档和5.71亿张图像，旨在为旨在处理图像和文本混合序列的模型提供必要的交织预训练数据。
OBELICS：OBELICS是一个开放的、Web规模的数据集，包含从Common Crawl中提取的1.41亿个多模态Web文档，特征包括3.53亿张图像和1150亿个文本标记。该数据集侧重于捕获完整的文档结构，而非孤立的图像-文本对，旨在提高模型在各种基准测试中的表现。
CoMM：CoMM是一个高质量的、精心策划的数据集，专门关注图像-文本交织序列的一致性和连贯性，包含约227K个样本。它通过多角度过滤策略，主要来源于教程和视觉故事网站（如WikiHow），解决了在更大数据集中观察到的叙事流程和视觉一致性问题。CoMM旨在提升MLLM生成逻辑结构和视觉一致的多模态内容的能力，并引入了新型的基准任务，专门评估这些能力。

其他文本+图像到图像的数据集

除了前面提到的类别，为了进一步增强统一模型的能力—例如根据提供的主题图像生成图像，或利用控制信号（如深度图、Canny 边缘图）—本文在本节中介绍相关的数据集。

LAION-Face：上面讨论的数据集侧重于一般的主题驱动生成，而 ID 保持图像生成代表了这一类别的一个特殊子集。利用 LAION-Face 数据集，其中包含 5000 万个图像-文本对，最近的进展如 InstantID成功地在保持角色身份的同时生成图像。
MultiGen-20M：该数据集包含 2000 万个样本，旨在训练能够基于多个控制信号（例如文本描述、边缘图、深度图、分割掩码、草图）进行统一图像生成的模型，如 UniControl 。它整合了来自多个来源的数据，并将它们转换为统一格式，使模型能够学习多任务、多条件的图像生成。数据集可以结构化为三元组，例如"深度图、带有提示的指令、目标图像"（例如提示可能为："根据深度图生成一幅令人印象深刻的场景。"），以有效地训练统一模型。
Subjects200K：包含 20 万个样本，Subjects200K 集中于主题驱动的图像生成，对于个性化内容创作至关重要。该数据集通过多阶段pipeline合成生成：首先，由一个大语言模型（如 ChatGPT-4o）创建涉及物体类别和场景的结构化描述；随后，由一个图像合成模型（如 FLUX ）根据这些描述生成多样化且一致的配对图像；最后，LLM 对生成的配对进行质量评估，以确保主题一致性、正确的构图和高分辨率。
SynCD：SynCD（Synthetic Customization Dataset）提供了大约 9.5 万组专门为文本+图像到图像定制任务设计的图像集，解决了缺乏多种条件下同一对象的公开数据集的问题。它通过利用现有的文本到图像模型和 3D 资产数据集（如 Objaverse）来生成对象的多种一致视图，具有不同的光照、背景和姿势，并结合了共享注意力和深度引导等技术。主题驱动的生成，涉及单一和多个主题，是一种日益受到社区关注的图像生成能力。这也是统一模型中一个重要的特性。然而，从公开数据集中获取这种专业化的数据较为困难，因此经常使用数据合成方法，如 Subjects200K 和 SynCD 数据集所示。这些数据集展示了利用合成数据来解决公开可用训练样本短缺问题的日益增长的依赖。

为了创建大规模数据集，已开发出多种pipeline，用于程序化生成合适的训练数据，通常利用现成的图像或视频来源。以下是这些pipeline的简要概述，供参考。

从图像合成数据：这些pipeline通常从单张图像开始，使用像 BLIP-2 或 Kosmos2 这样的模型进行初步标注（包括使用边界框进行的定位标注），然后通过物体检测（例如 Grounding DINO）和分割（例如 SAM）来提取物体的掩码和区域标注。这些pipeline可以生成单一物体定制和多个物体定制的数据。
从视频合成数据：从图像构建的数据通常会导致模型学习中的复制粘贴问题。通过从不同帧中提取物体，使用视频分割模型（如 SAM2）的视频合成数据pipeline可以缓解这一问题。此外，这一pipeline还可以支持图像编辑任务的训练数据生成。

强大的统一多模态模型在很大程度上依赖于最近开发的大规模、高质量和多样化的训练数据集，这些数据集包括图像-文本对、交织的图像-文本文档和特定任务格式。虽然大规模的网络规模配对数据（如 LAION、COYO）和交织的文档语料库（如 MMC4、OBELICS）为预训练提供了广泛的语义覆盖和上下文理解，但显著的努力集中在提高数据质量和为特定属性或高级能力定制资源上。专门化的数据集对于提升基于指令的编辑、精确文本渲染、一致的多模态生成和复杂的条件控制变得越来越重要。此外，认识到高质量公开数据的稀缺性，特别是在图像编辑和主题定制任务等方面，开发和利用数据合成管道变得至关重要，这使得能够创建针对性数据集以训练这些高度专业化的模型功能。最终，数据资源的持续演变、规模扩大、针对性专门化和创新的合成是推动统一多模态模型越来越复杂的理解和生成能力的根本动力。

基准测试

现代的大规模统一多模态模型不仅需要在像素级对视觉和语言信息进行对齐，还要能够进行复杂的推理，支持连贯的多轮对话，并整合外部知识。同时，这些模型还需要生成高保真度的视觉输出，忠实地遵循文本提示，并为用户提供对风格和组成元素的精细控制。本节系统地总结了相关的评估基准。请参阅下表 4 以获取统计摘要。

理解评估

感知。现代的视觉-语言大规模模型必须准确地将视觉输入与语言描述进行对接，通过定位、识别和检索。早期的图像-文本检索和标题生成基准（如Flickr30k，MS COCO Captions）评估模型是否能够检索相关标题并将文本短语定位到图像区域。视觉问答基准（如VQA，VQA v2，VisDial，TextVQA）进一步要求模型解释复杂的场景并回答关于物体、属性和关系的自由形式问题。领域特定的挑战（如ChartQA）评估对结构化图表和图形的理解，而VSR则探讨现实世界图像中的空间关系推理。

为了统一评估，大规模的元基准套件测试低级别的感知和专家推理。MMBench 提供了3K个双语多项选择问题，涵盖了定位、识别和检索，支持跨语言对比。MMMU 添加了大约11.5K个大学级别的多模态问题，涵盖六个学科，测试领域知识和逻辑推理。HaluEval 诊断模型生成的陈述中的幻觉识别。MM-Vet涵盖了识别、OCR、空间推理、数学和开放式问答，其v2进一步评估交错的图像-文本序列。SEED-Bench设计了一个生成多项选择问题的管道，针对特定的评估维度，最终提供了19K个多项选择项，涵盖12个维度。LLaVa-Bench 提供了COCO和真实图像集，并配有密集查询，用于通用化检查。LAMM提供了涵盖2D和3D模式的指令调优示例，用于代理开发。Open-VQA设计了分层的后续问题，以完善粗略的VQA答案。OwlEval提供了人工评定的开放式视觉问题，评估其相关性和信息量。MMStar精心策划了涵盖六个核心技能和18个评估轴的挑战样本，用于高精度评估。

推理。在感知级别评估的基础上，推理基准探讨更丰富的认知技能。CLEVR系统地改变物体属性和空间关系，迫使模型执行多跳程序，测试计数、比较和关系逻辑。转向自然图像，GQA利用密集场景图生成组合问题，其功能程序用于测试一致性、定位和可信性。

常识推理扩展（如OK-VQA及其较大的后续版本A-OKVQA）选择问题，其答案超出了图像，需要在世界知识库上进行检索或推理。VCR进一步要求模型不仅选择正确的答案，还要选择一个连贯的理由，从而将识别与解释结合起来，测试多步常识链条。

领域特定的推理数据集将这一进展扩展到超越日常场景的范围。ChartQA引入了将视觉感知与对条形图、折线图和饼图的定量推理相结合的问题，整合数据提取、逻辑比较和算术计算。MathVista将范围扩展到数学问题求解，在视觉上下文中结合了细粒度的视觉理解和符号操作，涵盖了多样化的示例。这些基准测试形成了一个分层的光谱，涵盖了结构化逻辑推理、开放领域常识、视觉解释和数字密集型任务，为多模态推理系统提供了全面的压力测试。

图像生成评估

文本到图像生成。早期的自动化评估指标（如FID 和 CLIPScore）为图像质量评估奠定了基础。然而，最近的基准将重点转向了组合性、对齐性和现实世界的适用性。GenEval 评估六个细化任务，包括单物体生成、物体共现、计数、颜色控制、相对定位和属性绑定，通过将预训练的检测器输出与真实注释进行比较来进行评估。

在此基础上，GenAI-Bench 提出了1600个精心设计的人类提示，涵盖了关系、逻辑和属性等类别。其评估框架结合了人类偏好判断与自动对齐评分，提供了全面的评估。此外，HRS-Bench 评估了准确性、鲁棒性、泛化能力、公平性和偏差等13个不同的技能，将其分为五大类，从而确保了可扩展性和可靠的性能测量。此外，DPG-Bench专注于密集提示，描述了多个物体，每个物体具有多种属性和关系。

T2I-CompBench及其后续版本T2I-CompBench++ 专门针对组合生成的泛化能力，测试生成新的属性和关系组合，使用基于检测器的评分。VISOR提出了一个自动化方法来评估生成模型的空间理解能力。与此互补，Commonsense-T2I 挑战模型描绘需要常识基础的日常概念。

为了支持大规模的概念多样性，EvalMuse-40K提供了40K个众包提示，专注于细致的概念表示，HEIM确定了12个方面，包括文本-图像对齐、图像质量、美学、原创性、推理、知识、偏差、毒性、公平性、鲁棒性、跨语言能力和效率。考虑到实际需求，FlashEval通过迭代搜索将大规模评估集缩小为多样化的小型评估集，以加速基准测试。MEMO-Bench 引入了一个全面的基准，评估T2I模型和多模态大语言模型的情感理解与表达能力。

图像编辑。指导性图像编辑的基准在规模和范围上不断扩大。MagicBrush 是第一个大规模、手动注释的数据集，用于指导性的真实图像编辑，涵盖了多种场景：单轮、多轮、掩码提供和无掩码编辑。HQ-Edit包含约20万个高分辨率编辑，计算了对齐性和一致性评分，允许通过GPT-4V定量评估图像编辑对。

在此基础上，I2EBench 整合了2000多张图像和超过4000条跨16个编辑维度的多步骤指令。EditVAl提供了一个标准化的基准，使用预训练的视觉-语言模型自动评估编辑类型，并且其评分与人类评估高度相关。Emu-Edit 包括七个基于指令的编辑任务，涵盖背景更改、综合修改、风格变换、物体移除、物体添加、局部编辑和纹理修改，提供了带有输入/输出描述的人类指令/图像对。HumanEdit提供了5751张高分辨率图像，配有跨六个编辑类别的开放式语言指令：动作、添加、计数、关系、移除和替换，并配有掩码和多阶段的人工反馈，以严格评估指导性图像编辑模型。

最近，提出了GEdit-Bench，这是一个现实世界的图像编辑基准，包含606个图像-指令对，来自1000多个用户编辑示例，旨在全面评估实际图像编辑模型的表现。

其他类型的图像生成除了文本到图像生成和图像编辑，其他基准测试则探讨了大规模条件化和个性化合成。MultiGen-20M 包含来自LAION-Aesthetics-V2的2000万对图像-提示-条件三元组，用于在不同视觉条件下评估对齐性，并提供每个任务100-300个图像-条件-提示三元组的评估集。

DreamBench引入了一个个性化生成测试，涵盖30个参考对象，配有精心策划的提示和人工注释的保真度评判。DreamBench++ 扩展了这个框架，包含150个多样的参考图像和1350个提示，采用先进的多模态语言模型进行自动化、人类对齐的评分，评估概念保留、组成忠实性和风格一致性。总的来说，这些数据集提供了从大规模自动化基准到聚焦于人类中心的条件和主题驱动图像生成评估的统一谱系。

交替生成的评估

交替评估基准挑战模型无缝地在文本和图像模态之间交替生成，反映了现实世界中的对话和讲故事场景。InterleavedBench 是第一个专门为交替文本和图像生成评估而精心策划的基准，涵盖了多样的任务，评估模型在文本质量、感知保真度、多模态一致性和有用性方面的表现。基于此，ISG 引入了场景图注释和四级评估（整体、结构、区块级别和图像特定）来对1000个样本的八个场景和21个子任务进行细粒度评估，提供了对交替文本-图像输出的深入考核。

其他基准强调开放领域指令和端到端的交替生成。OpenING收集了5000个人工注释的实例，涵盖56个现实世界任务（例如旅游指南、设计构思），并使用IntJudge测试开放式多模态生成方法在任意指令驱动的交替生成中的表现。相对地，OpenLEAF收集了30个开放领域的查询，每个查询都经过注释员的撰写和审阅，旨在探讨基础的交替文本-图像生成，通过LMM评估器和人工验证来衡量实体和风格的一致性。最后，MMIE提出了一个统一的交替生成基准，采样自12个领域和102个子领域，提供了多项选择题和开放式问题格式，评估模型在多样化方式中的表现。

统一模型的挑战与机会

目前，统一的多模态模型仍处于初级阶段，面临一些显著挑战，必须解决这些问题才能实现强大且可扩展的理解与生成能力。首先，视觉和文本数据的高维度导致极长的标记序列。有效的标记化和压缩策略对于减少内存和计算成本同时保持表示的忠实度至关重要。其次，随着图像分辨率和上下文长度的增加，跨模态注意力成为性能瓶颈。稀疏或层次化注意力机制等可扩展的替代方法可能有助于缓解这一问题。第三，预训练数据集往往包含噪声或偏见的图像-文本对，特别是在复杂的图像构图和交替图像-文本数据中。可靠的数据过滤、去偏和合成对于确保公平性和鲁棒性至关重要。第四，评估协议通常为单一任务设计，存在对理解和生成综合评估的需求，尤其是在图像编辑和交替图像-文本生成等复杂任务中。

据本文所知，目前大多数统一的多模态模型主要强调图像理解和文本到图像生成，而图像编辑等能力仅通过后期微调实现。此外，像空间控制图像生成、基于主题的图像生成和交替图像-文本生成等高级功能，在统一框架中仍未得到充分探索。因此，本文认为，通过解决关键领域如架构设计、训练效率、数据集策划和评估方法，有丰富的机会推动该领域的进步。

结论

本文提供了一个全面的视角，探讨了将视觉-语言理解与图像生成集成在单一框架中的统一多模态模型。首先，本文简要概述了多模态理解和文本到图像生成模型的基础知识和近期进展。接下来，本文通过将统一多模态模型分为三大范式：基于扩散的、基于自回归的和混合型方法，对相关工作进行系统的调查。对于每个范式，本文介绍了相关的工作，并进一步细分成不同的子类别，帮助读者更好地掌握该领域的全貌。此外，本文策划了相关的数据集和基准，以促进实践中的实现和评估。最后，本文讨论了该领域的关键挑战和机遇，强调了统一多模态模型的研究仍处于起步阶段。本文希望本文的综述能为推动统一多模态模型研究与创新提供宝贵的资源。

参考文献

[1] Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年5月10日星期六

多模态与生成正迈向终极大一统！阿里最新3万字长文梳理统一的多模态理解和生成模型

引子

初步

多模态理解模型

文本生成图像模型

统一的多模态模型：理解与生成

3.1 扩散模型

3.2 自回归模型（Auto-Regressive Models）

1）基于像素的编码（Pixel-based Encoding）

2）语义编码（Semantic Encoding）

3）可学习查询编码（Learnable Query Encoding）

4）混合编码（Hybrid Encoding）

3.3 融合自回归与扩散模型（Fused Autoregressive and Diffusion Models）

1）基于像素的编码（Pixel-based Encoding）

2）混合编码（Hybrid Encoding）：

3.4 任意对任意多模态模型

多模态统一模型的数据集

多模态理解数据集

文本到图像数据集

图像编辑数据集

图像-文本交织数据集

其他文本+图像到图像的数据集

基准测试

理解评估

图像生成评估

交替生成的评估

统一模型的挑战与机会

结论

参考文献

致谢

技术交流

没有评论:

发表评论

国产大模型 GLM-4。5：两句提示词写出 3D 游戏，我当场惊呆！