AI I024: Apple提出UniGen！多模态理解生成统一xii新架构！CoT

最新论文解读系列论文名：UniGen: Enhanced Training\x26amp;Test-Time Strate

最新论文解读系列

论文名：UniGen: Enhanced Training&Test-Time Strategies for Unified Multimodal Understanding and Generation

论文链接：https://arxiv.org/pdf/2505.14682

导读

在单一框架内统一理解和生成能力是迈向通用人工智能模型的关键一步。开创性的工作取得了令人鼓舞的进展，但依赖于不同的训练方法和内部数据集。更重要的是，它们尚未展示出在统一架构中明智地结合这两种能力以实现显著性能提升的良好实践。我们通过仔细研究统一多模态大语言模型（MLLM）在不同阶段的训练方法的影响，并提出优化方案以提高图像理解和生成能力，推动了其发展。我们进一步探索利用理解和生成任务在测试时的交互，通过使用我们的统一MLLM作为自我验证器来选择质量更高的图像。

简介

我们推出了UniGen，这是一个能够进行图像理解和生成的统一多模态大语言模型（MLLM）。我们从以数据为中心的视角研究了UniGen的完整训练流程，包括多阶段预训练、有监督微调以及直接偏好优化。更重要的是，我们提出了一种新的思维链验证（CoT - V）策略用于测试时扩展，该策略通过简单的"最佳 - "测试时策略显著提升了UniGen的图像生成质量。具体而言，使UniGen在测试时既能充当图像生成器又能充当验证器，以逐步的思维链方式评估文本提示与其生成图像之间的语义对齐度。UniGen在所有阶段均完全基于开源数据集进行训练，在一系列图像理解和生成基准测试中取得了最先进的性能，在GENEVAL上的最终得分为0.78，在DPG - BENCH上的得分为85.19。通过广泛的消融研究，我们的工作为构建统一MLLM的整个生命周期提供了可行的见解并解决了关键挑战，为未来的研究提供了有意义的方向。

方法与模型

1. 架构

如图2所示，我们将图像理解和生成任务整合到一个预训练的大语言模型中，同时将它们的视觉编码解耦到连续和离散嵌入空间中。这一设计灵感来源于先前的工作[74]，该工作表明连续嵌入能有效保留理解任务所需的空间细节，而离散令牌本质上更适合图像生成。

图2：UniGen的架构，它基于自回归大语言模型（LLM）和解耦的视觉编码器，用于图像理解和生成任务。

对于图像理解，我们遵循LLaVA [37]的工作流程，并采用下一个标记预测范式。给定输入图像，理解编码器（例如，SigLIP [89]）将其特征提取为连续标记的向量。投影器将图像和文本嵌入对齐到同一空间，然后将这些嵌入作为输入馈入大语言模型。我们使用原始的自回归训练目标计算理解损失。为了保留大语言模型的语言建模能力，我们还使用纯文本数据训练UniGen，并对相应的损失进行反向传播。

对于文本到图像生成，我们采用掩码标记预测 [5] 作为训练目标。与文本标记的自回归解码不同，这种范式使模型能够并行生成多个图像标记，显著加速了生成过程。在训练期间，对于每个图像，生成编码器（例如，MAGVIT - v2 [86]）将其标记化为长度为的离散标记序列，其中指的是的空间下采样因子。然后，根据调度函数给定一个掩码比率，我们随机采样一个二进制掩码，其中位置均匀设置为1，其他位置设置为0。对于等于1的每个位置，我们用一个特殊的掩码标记 [MASK] 替换其对应的离散图像标记，以形成最终的输入图像序列。最后，我们将文本标记（例如，图像类别或标题）前置到掩码序列。在推理期间，图像生成从所有掩码标记开始，并通过并行的分散预测逐步填充潜在表示。遵循MaskGIT [5]，UniGen不会一次性生成整个图像的所有标记，因为这个过程与我们的训练过程不一致。相反，我们通过余弦掩码调度在次迭代中迭代推断图像标记。默认情况下，我们将设置为50。

2. 预训练（PT）

预训练的目标是开发UniGen的视觉生成能力，同时保留其多模态理解的潜力。因此，我们只优化生成投影器和大语言模型，而冻结其他参数。我们还包括图像到文本和纯文本预训练，以保持UniGen的语言建模能力。为了促进离散图像标记和文本之间更好的对齐，我们仅在这个阶段直接使用生成编码器进行理解任务。我们通过经验发现，这种设计可以显著提高图像生成性能。具体来说，我们通过两阶段过程采用"由易到难"的策略。

PT - 1阶段旨在对齐图像和文本嵌入，并预测基本视觉概念的分布。我们认同文献[74]的发现，即ImageNet[55]的分布可以作为一种有效的预热方法。然而，我们提出，在文本到图像生成任务中使用图像描述而非图像类别名称能够实现更好的收敛效果。因此，我们使用Qwen2.5 - VL - 7B[3]对ImageNet数据集进行重新标注，并为每张图像生成细粒度的描述。同样地，我们对来自CC - 3M[56]、CC - 12M[6]和SAM - 11M[29]的图像进行重新描述。这些重新描述的数据集与ImageNet一起，构成了一个用于图像到文本预训练的图像 - 文本对语料库。对于仅文本的预训练，我们使用RefinedWeb[49]。

PT - 2阶段进一步促使UniGen能够泛化到更广泛的视觉生成能力。我们将重新标注的CC - 3M、CC - 12M和SAM - 11M与ImageNet进行扩充，作为PT - 2的文本到图像

图3：使用测试时缩放和CoT - V的UniGen工作流程。左：使用CoT - V进行Best - of - 选择的示意图。UniGen首先生成6个候选图像，然后在使用CoT - V进行自我验证后选择得分最高的两个图像。右：在中计算最终质量得分的逐步推理过程可视化。

数据集，同时使用相同的图像到文本和仅文本的数据集。我们认为，具有更丰富分布的训练数据能够更精确地控制生成模式。我们将在这个阶段训练的模型命名为UniGen - PT。

3. 有监督微调（SFT）

在SFT阶段，UniGen在图像理解和生成任务上进行联合训练。我们对生成投影器、理解投影器和大语言模型（LLM）进行微调，同时保持视觉编码器冻结。对于图像理解，我们注意到在预训练阶段以知识为中心的理解能力有限。为了增强相关能力，我们采用了来自SlowFast - LLaVA - 1.5[79]的强图像混合数据，这些数据是从包含467万个多模态视觉问答（VQA）样本的开源数据集中精心挑选出来的。对于图像生成，先前的工作[8]使用高质量的合成数据能够实现快速且稳健的训练收敛。我们通过使用JourneyDB[57]和text - 2 - image - 2M[26]来提高生成图像的美学质量，也证实了这一观点。我们将在这个阶段训练的模型命名为UniGen - SFT。

4. 直接偏好优化（DPO）

我们通过直接偏好优化（DPO）使UniGen的输出与人类偏好保持一致，从而进一步增强该模型。我们首先讨论如何构建合成偏好数据集，然后描述我们的DPO算法。

偏好数据集。我们利用UniGen - SFT为偏好数据集生成图像。对于给定的提示，生成20张图像。通过评估每张图像与提示之间的连贯性来构建偏好和拒绝样本对。为了提高数据的鲁棒性，我们的数据集涵盖了短、中、长三种类型的提示。

对于短提示，我们使用来自PARM[18]的提示，这些提示通常描述场景中的对象及其属性和关系。遵循文献[18]，我们使用GENEVAL指标来评估图像的生成质量。我们选择得分最高的示例作为偏好样本，得分最低的作为拒绝样本。这总共提供了对带有偏好标签的图像 - 文本对。
对于中等提示，我们从T2I - Comp[23]训练集中采样，这些提示具有更复杂的组合概念。我们使用Qwen2.5VL - 7B通过将每个提示分解为细粒度的视觉问题来评估图像 - 提示的一致性。如果图像与描述一致，每个问题的答案为"是"，否则为"否"。最终的一致性得分是这些答案的平均值，并用于选择偏好和拒绝的图像对。

图4：使用不同图像验证方法的示例：（a）结果验证，（b）基于规则的验证和（c）思维链验证。

对于长提示，我们利用从重新标注的SA1B中随机采样的6000个提示，该数据集包含具有丰富语义描述的高质量图像。由于评估图像与长提示之间的语义一致性具有挑战性，我们遵循与中等提示相同的流程来标注和选择偏好对。

DPO训练。我们使用原始的DPO训练损失[53]

其中是我们的UniGen-SFT模型，是经过优化的UniGen-DPO模型，和分别是每个提示的首选和弃用示例，是一个控制从到偏差的超参数。在此阶段，我们仅优化生成模块（即冻结理解编码器和投影器）。训练在一个轮次内结束，批次大小为64，学习率为。我们通过实验发现，这种DPO训练不会损害UniGen的理解性能。我们将此阶段训练的模型命名为UniGen-DPO。

5. 测试时缩放

近期研究表明，测试时缩放对于提高图像理解和生成能力均有效 [18]。我们采用N选优评估策略，并利用UniGen的理解能力对图像生成进行自我评估以验证其质量。总体工作流程如图3所示。首先，UniGen为给定提示生成个候选图像。其次，我们将每个生成的图像及其提示输入到UniGen中，UniGen通过返回一个质量得分来评估图像与其文本描述之间的一致性。第三，我们选择得分最高的前个图像作为最终结果。

在这项工作中，我们提出了三种验证方法，如图4所示。

结果验证（Outcome Verification，OV）简单地促使UniGen直接判断输入提示与每个候选图像的一致性，给出一个二元得分（即匹配良好为"是"，生成失败为"否"）。如果有得分相同的候选图像，我们将随机选择一个。
基于规则的验证（Rule-based Verification，RV）根据预定义规则将每个提示分解为几个原子问题，然后将生成的图像依次与这些问题一起输入到UniGen中进行质量验证。所有子问题的结果取平均值作为最终质量得分。
思维链验证（Chain-of-Thought Verification，CoT-V）指导模型逐步思考，并根据提示和每个生成的图像验证每个原子事实，遵循思维链格式：<think_start> ？？；<think_end>。我们通过解析思维链输出来计算最终质量得分。具体而言，给定一个文本提示和一个生成的图像，会生成一系列视觉问题及其相应的答案。最终得分定义为：

图5：使用CoT-V方法得到的UniGen结果的可视化示例。前三行分别展示了计数、位置和颜色属性的示例，最后一行展示了由自由形式提示生成的图像。第一列包含UniGen作为测试时验证器选择的图像。

OV依赖于UniGen的模式匹配能力，无需中间推理。RV将规则驱动的推理过程融入测试时缩放。尽管RV在结构良好的提示上有效，但在处理自由形式或复杂指令（如DPG-Bench [21] 中的指令）时会遇到困难。CoT-V结合了两种方法的优势，无需手动分解提示即可实现推理驱动的图像验证。因此，我们使用作为默认验证方法。

5.1. CoT-V后训练

UniGen尚未经过精确训练以生成思维链响应。在此，我们在UniGen-DPO的基础上引入一种轻量级的后训练策略，使其具备基于思维链的验证能力。

数据。为了构建思维链视觉（CoT-V）后训练数据，我们复用了直接偏好优化（DPO）阶段（第3.4节）收集的图像-文本对。对于源自PARM的提示，我们通过基于规则的匹配提取问答对，因为它们具有清晰的结构 [15]。对于来自T2I-Comp的更复杂提示，我们首先引导Qwen2.5 - 7B [80]生成一系列原子问题，然后用每个图像-问题对查询Qwen2.5 - 7B-VL以获得其二进制伪标签。由于分解后的视觉问题质量较低，我们排除了来自SA - 1B的提示。我们通过实验发现，大多数分解后的问题并未完全涵盖原始标题的视觉概念。我们从这两个提示来源总共采样了个图像-问题-答案三元组。

训练。我们将上述个训练对格式化为遵循指令的对话，并将它们输入到UniGen - DPO进行有监督的微调。在这个阶段，我们只优化理解投影器和大语言模型（LLM）。为了确保不损害UniGen的通用理解能力，我们在这个CoT - V数据集上以的小学习率对UniGen仅进行500步的微调。此阶段后训练得到的模型就是我们的最终模型，我们将其命名为UniGen。

实验与结果

1. 实现细节

我们在预训练阶段使用32块H100 - 80G GPU，在其他阶段使用8块H100 - 80G GPU。UniGen基于预训练的Qwen2.5 - 1.5B [80]构建。我们采用来自Show - o [76]的MAGVITv2作为离散视觉编码器，输入分辨率为，并采用SigLIP [89]作为连续视觉编码器。如第3.1节所述，我们在预训练1（PT - 1）和预训练2（PT - 2）阶段使用MAGVITv2进行理解和生成，并在有监督微调（SFT）后继续使用SigLIP作为理解编码器。

训练。为了执行用于图像生成任务的掩码标记预测，我们遵循Show - o [76]的方法，在图像标记内使用双向注意力掩码，但在文本标记内以及多模态标记之间保持因果关系。图像理解任务采用相同的注意力掩码策略。对于纯文本数据，我们使用因果注意力机制。每个训练阶段的详细超参数（如批量大小和学习率）在附录表13中描述，更多训练细节见附录E.0.2节。

推理和评估。我们遵循图像生成的常见做法，使用无分类器引导 [20] 并将比例设置为5.0。此外，我们遵循MaskGIT [5] 的方法，在推理中采用余弦掩码调度器，并将默认步数设置为。我们使用MAGVITv2解码器将视觉标记投影回像素空间。对于使用进行测试时缩放，我们为每个文本提示生成个图像候选，并从中选择前K个进行GENEVAL和DPG - BENCH评估。

2. 主要结果

我们报告了UniGen在各种图像理解和生成基准测试中的性能（详细信息在附录A节讨论），并在图5中展示了一些定性图像。我们主要在表1和表2中将UniGen与最先进的统一大语言模型（LLMs）进行比较，但也参考了强大的专业模型，以了解我们在多模态大语言模型（MLLMs）整体格局中的位置。在此，我们强调以下观察结果。

首先，与现有的统一多模态大语言模型相比，UniGen在各个理解基准测试中取得了最先进的结果。具体而言，在真实世界问答（RealWorld - QA）、AI2D和MathVista测试中，UniGen分别比Janus - Pro高出和。我们认为这些改进主要得益于（i）使用解耦的生成和理解编码器，以及（ii）更强的有监督微调（SFT）数据混合。值得注意的是，即使一些仅用于理解的强大多模态大语言模型（如LLaVA - OV - 0.5B和MM1.5 - 1B）使用更高的输入分辨率，UniGen甚至可以与之相媲美。

其次，在文本到图像基准测试中，UniGen显著优于现有的统一多模态大语言模型和强大的仅用于生成的模型。以表2中的GENEVAL为例，UniGen的总体得分达到0.78，比Janus - Pro高出0.05。此外，我们的模型在"计数"任务上表现出压倒性优势，比Janus - Pro高出0.27。即使一些仅用于生成的高级模型（如DALLE - 2和Emu3）模型规模大得多，UniGen甚至也能击败它们（分别比DALLE - 2和Emu3高出和）。同样，如表2所示，在DPG - BENCH测试中，UniGen明显优于现有模型，分别比Show - o和Janus - Pro高出13.49和2.56。

3. 消融实验

我们首先介绍每个阶段的详细影响，然后介绍我们对直接偏好优化（DPO）和测试时缩放阶段的研究。有关预训练1（PT - 1）、预训练2（PT - 2）和有监督微调（SFT）的更多消融实验，请参考附录B节。

3.1. 不同训练阶段的影响

我们通过在表3中展示每个阶段后的理解和生成性能来检验我们的训练流程。在此，我们强调一些关键观察结果。

首先，如GENEVAL和DPG - BENCH分数的不断提高所示，UniGen的生成性能在各个阶段持续提升。预训练阶段旨在预热UniGen的生成能力。有监督微调（SFT）通过使用高质量的生成数据集提升了GENEVAL和DPG - BENCH的分数。由于我们的偏好数据有效，直接偏好优化（DPO）阶段将GENEVAL和DPG - BENCH分别显著提高到0.73（+0.10）和84.89（+2.14）。思维链验证（CoT - V）通过测试时缩放进一步将分数提升至0.78（+0.05）和85.19（+0.3）。

其次，UniGen强大的理解能力在有监督微调（SFT）阶段被激发，并能在后续阶段得以保持。SFT阶段提升了UniGen遵循指令的能力，使其在理解基准测试中表现出色。我们使用DPO使UniGen的输出与图像生成的偏好数据对齐，发现这一阶段成功保持了强大的理解能力。CoT - V包含额外的轻量级微调，以鼓励在测试时缩放期间进行思维链验证。结果表明，除了在真实世界问答（RealWorld - QA）上有轻微下降外，它并未牺牲整体理解能力。我们将这种下降归因于CoT - V的合成训练数据与RealWorld - QA中的真实世界图像之间的分布差异。

3.2. 的消融实验

在此，我们评估第3.5节中讨论的不同验证方法，并强调以下要点。

首先，思维链验证取得了最佳性能，提示UniGen的思维过程很重要。如表4所示，使用结果验证没有带来提升，而使用思维链思维在GENEVAL和DPG - BENCH上都显著提升了生成性能。我们还观察到，基于规则的验证也很有效，使GENEVAL达到0.75。然而，它的通用性不足以用于自由形式的提示。比较思维链验证和基于规则的验证结果，我们可以看到，提示模型自身进行思考有助于更可靠的评估。

其次，思维链验证（CoT-V）后训练对于强大的测试时验证至关重要。如表5所示，直接使用未经过CoT-V后训练的UniGen会导致性能显著下降，尤其是在GENEVAL任务上。这一对比表明，CoT-V后训练对于思维链验证（CoT verification）至关重要。

第三，思维链验证（CoT-V）可以有效地推广到其他模型。我们使用直接偏好优化（DPO）对Show-o进行微调，并使用我们生成的数据对进行微调，以提升其生成性能。表5中的结果显示，是一种通用技术，也可以提升Show-o的生成性能。

3.3. 直接偏好优化（DPO）的消融实验

我们对每个数据源的贡献进行消融实验，并证明我们的直接偏好优化（DPO）数据在其他统一模型上的有效性。

首先，每个提示源都对生成性能有积极贡献。表6显示，仅添加PARM DPO数据就会带来显著提升（第1行与第2行对比），而进一步添加T2I-Comp主要对DPG-BENCH有益（第2行与第3行对比）。使用所有提示的UniGen-DPO在整体性能上表现最佳（第3行与第4行对比）。

其次，我们的DPO数据也大幅提升了Show-o的性能，这表明它可以推广到其他统一模型。当直接使用我们的DPO数据对Show-o进行微调时，我们也观察到了显著的提升，如在GENEVAL上从0.56提升到0.64，在DPG-BENCH上从71.70提升到76.32，如表6所示。

结论

我们提出了UniGen，这是一种用于统一多模态理解和生成的多模态大语言模型（MLLM）。我们探讨了整个训练流程中的关键因素，并提出了优化方法以提高性能。我们还首次尝试将UniGen的理解和生成能力相结合，通过让UniGen在测试时扩展阶段同时作为图像生成器和验证器。结果，我们成功地显著提升了图像生成质量。仅使用开源数据集进行训练，UniGen在广泛的理解和生成基准测试中达到了最先进的性能。我们希望我们的探索和消融研究能为强大统一的多模态大语言模型的未来发展提供见解。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

AI I024

2025年5月24日星期六

Apple提出UniGen！多模态理解生成统一xii新架构！CoT - V提升图像生成质量！