如您有工作需要分享,欢迎联系:aigc_to_future
作者:Jiuhai Chen等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2505.09568
代码链接:https://github.com/JiuhaiChen/BLIP3o
模型链接:https://huggingface.co/BLIP3o/BLIP3o-Model
预训练数据:https://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain
优化数据:https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
亮点直击
创新架构设计: 首次采用扩散Transformer生成CLIP语义特征,突破传统VAE局限,实现高效训练与高质量生成。 分阶段训练策略: 通过"理解优先,生成扩展"的序列化训练,兼顾模型的双向能力,避免联合训练的性能冲突。 高质量数据驱动: 基于GPT-4o构建的BLIP3o-60k数据集,显著提升生成图像的美学与指令跟随能力,填补领域空白。
总结速览
解决的问题
统一多模态模型中图像理解与生成的架构设计和训练策略尚未充分探索。 现有方法在图像表示(如VAE与CLIP特征)、训练目标(如MSE与Flow Matching)和训练策略(如联合训练与分阶段训练)上的优劣不明确。 缺乏高质量指令微调数据集以提升生成图像的美学质量和人类偏好对齐。
提出的方案
引入基于扩散Transformer的模型,生成语义丰富的CLIP图像特征,替代传统的VAE表示。 采用分阶段预训练策略:先训练图像理解任务,再扩展至图像生成任务,冻结理解部分以保持能力。 构建高质量指令微调数据集BLIP3o-60k,通过GPT-4o生成多样化提示(场景、物体、人类动作等)以优化生成对齐。
应用的技术
图像表示:CLIP图像编码器提取高层语义特征,扩散Transformer生成特征。 训练目标:Flow Matching损失替代MSE,提升生成多样性和质量。 训练策略:分阶段训练(理解→生成)结合参数冻结。 数据构建:基于GPT-4o的指令微调数据集BLIP3o-60k。
达到的效果
效率与质量:CLIP特征训练效率更高,生成质量优于VAE;Flow Matching损失提升多样性。 性能指标:BLIP3-o在MME-P(1682.6)、MMMU(50.6)、GenEval(0.84)等基准上达到SOTA。 开源贡献:完整开源模型权重、代码、训练脚本及数据集,推动社区研究。
统一的多模态图像生成与理解
动机
近年来,开发同时支持图像理解与生成的统一多模态架构已成为一个前景广阔的研究方向。诸如Janus、Show-o、MetaMorph、Janus-Pro和LMFusion等模型是早期尝试在单一框架内桥接图像理解与生成的代表。最近,OpenAI的GPT-4o通过展示高质量图像生成和强大多模态理解能力,进一步激发了这一范式的兴趣。尽管关注度日益增长,但实现此类统一能力的底层设计原则和训练策略仍未得到充分探索。本研究旨在系统性地探究并推动统一模型的开发,我们首先明确阐述构建统一多模态模型的关键动机。
推理与指令跟随
将图像生成能力集成到自回归模型(如多模态大语言模型MLLMs)中,有望继承其预训练知识、推理能力和指令跟随能力。例如,本文的模型能够直接理解"一种长鼻子动物"等提示,而无需重写提示。这展现了传统图像生成模型难以企及的推理能力和世界知识。除推理外,当MLLMs的指令跟随能力被整合到统一架构中时,预计也能延续至图像生成过程。
上下文学习
同时支持图像理解与生成的统一模型天然具备上下文学习能力。此类模型中,先前生成的多模态输出可作为后续生成的上下文,从而无缝支持迭代图像编辑、视觉对话和逐步视觉推理。这消除了模式切换或依赖外部处理流程的需求,使模型能保持连贯性和任务连续性。
迈向多模态AGI
随着人工智能向通用人工智能(AGI)发展,未来系统需超越纯文本能力,无缝感知、解释和生成多模态内容。实现这一点需要从纯文本架构转向统一的多模态架构,使其能跨模态推理与生成。此类模型对于构建能以整体、类人方式与世界交互的通用智能至关重要。
结合自回归与扩散模型
OpenAI的GPT-4o近期在图像理解、生成和编辑任务中展现了最先进性能。其架构的新兴假设表明其采用混合流程:
这意味着自回归和扩散模型可能被联合利用以结合两者优势。受此混合设计启发,我们在研究中采用自回归+扩散框架。但该框架下的最优架构仍不明确。自回归模型生成连续的中间视觉特征以逼近真实图像表示,这引发两个关键问题:第一,应使用何种真实嵌入——用VAE还是CLIP将图像编码为连续特征?第二,自回归模型生成视觉特征后,如何最优地将其与真实图像特征对齐,或更广义地说,如何建模这些连续视觉特征的分布:通过简单MSE损失,还是采用基于扩散的方法?下面全面探索各种设计选择。
统一多模态中的图像生成
现在讨论构建统一多模态框架内图像生成模型的设计选择。首先探索如何通过编码器-解码器架构将图像表示为连续嵌入,这对学习效率和生成质量具有基础性作用。
图像编码与重建
图像生成通常始于用编码器将图像编码为连续潜在嵌入,随后通过解码器从该嵌入重建图像。这一编码-解码流程能有效降低图像生成的输入空间维度,提升训练效率。下文讨论两种广泛使用的编码器-解码器范式。
变分自编码器
变分自编码器(VAEs)是一类生成模型,其学习将图像编码到结构化的连续潜在空间。编码器近似给定输入图像时潜在变量的后验分布,而解码器从该潜在分布采样重建图像。潜在扩散模型在此基础上通过建模压缩潜在表示的分布(而非原始像素)进一步扩展。通过在VAE潜在空间操作,这些模型显著降低输出空间维度,从而减少计算成本并实现更高效训练。去噪步骤后,VAE解码器将生成的潜在嵌入映射回原始像素。
CLIP编码器与扩散解码器
CLIP模型因其通过大规模图文对比训练提取丰富高层语义特征的能力,已成为图像理解任务的基础编码器。但利用这些特征进行图像生成仍具挑战,因CLIP最初并非为重建任务设计。Emu2提出实用方案:将CLIP编码器与扩散解码器配对。具体而言,它使用EVA-CLIP将图像编码为连续视觉嵌入,并通过基于SDXL-base初始化的扩散模型重建。训练时,扩散解码器被微调以使用EVA-CLIP的视觉嵌入作为条件从高斯噪声恢复原图,而EVA-CLIP保持冻结。该过程将CLIP与扩散模型有效结合为图像自编码器:CLIP编码器将图像压缩为语义丰富的潜在嵌入,扩散解码器从这些嵌入重建图像。值得注意的是,尽管解码器基于扩散架构,其训练采用重建损失而非概率采样目标。因此在推理时,模型执行确定性重建。
讨论
VAE和CLIP-扩散这两种编码器-解码器架构代表了图像编码与重建的不同范式,各有优势和权衡。VAE将图像编码为低层像素特征并提供更好重建质量。此外,VAE作为现成模型广泛可用,可直接集成到图像生成训练流程中。相比之下,CLIP-扩散需额外训练以使扩散模型适配不同CLIP编码器。但CLIP-扩散架构在图像压缩比方面优势显著。例如在Emu2和本文的实验中,无论分辨率如何,每张图像均可被编码为固定长度64的连续向量,提供紧凑且语义丰富的潜在嵌入。而基于VAE的编码器对高分辨率输入倾向于生成更长的潜在嵌入序列,这会增加训练过程的计算负担。
潜在图像表示的建模
在获得连续图像嵌入之后,使用自回归结构对其进行建模。给定一个用户提示(例如,"一个戴着草帽、有雀斑的年轻女性。"),首先通过自回归模型的输入嵌入层将该提示编码为一组嵌入向量序列 ,并将一个可学习的查询向量 添加到 的末尾,其中 是随机初始化并在训练过程中进行优化的。当组合序列 被输入到自回归Transformer中时, 学会关注并提取来自提示 的相关语义信息。所得的 被解释为由自回归模型生成的中间视觉特征或潜在表示,并被训练以逼近真实图像特征 (该特征来自于 VAE 或 CLIP)。下面介绍两种训练目标:均方误差(MSE)和流匹配,用于学习将 与真实图像嵌入 对齐。
MSE 损失均方误差(MSE)损失是一种直接且广泛使用的连续图像嵌入学习目标。给定由自回归模型生成的预测视觉特征 和真实图像特征 ,我们首先应用一个可学习的线性投影以使 的维度与 对齐。然后 MSE 损失被表示为:
其中 表示可学习的投影矩阵。
流匹配仅使用 MSE 损失只会将预测图像特征 对齐到目标分布的均值。一个理想的训练目标应当能够建模连续图像表示的概率分布。本文提出使用 流匹配(flow matching)方法 ,这是一种扩散框架,可以通过迭代地将样本从先验分布(例如高斯分布)迁移到目标连续分布中进行采样。
给定一个真实图像特征 和由自回归模型编码的条件 ,在每个训练步骤中,我们从均匀分布中采样一个时间步 ,并从高斯分布中采样噪声 。然后,扩散Transformer学习在时间步 上预测速度 ,该速度在 的条件下指向 的方向。
根据已有工作 [19],本文通过在 和 之间进行简单的线性插值得到 :
并且 的解析解可以表示为:
最终,训练目标被定义为:
其中, 表示扩散Transformer的参数, 表示在给定实例 、时间步 和噪声 的条件下预测的速度。
讨论与离散 token 不同,离散 token 天然支持基于采样的策略来探索多样的生成路径,而连续表示不具备这一特性。具体而言,在基于 MSE 的训练目标下,对于给定的提示,预测出的视觉特征 几乎是确定性的。因此,生成的图像(无论视觉解码器是基于 VAE,还是基于 CLIP + Diffusion 架构)在多次推理中几乎是相同的。这种确定性揭示了 MSE 目标的一个关键局限性:它限制模型为每个提示生成一个固定输出,从而限制了生成的多样性。
相比之下,流匹配框架使模型能够继承扩散过程中的随机性。这使得模型可以在同一提示条件下生成多样的图像样本,有助于更广泛地探索输出空间。然而,这种灵活性也带来了模型复杂度的提升。与 MSE 相比,流匹配引入了额外的可学习参数。在本文实现中,使用了扩散Transformer(DiT),并在实验中发现扩大其容量能够显著提升性能。
设计选择
不同的图像编码器–解码器架构和训练目标的组合产生了多种图像生成模型的设计选择。这些设计选择如下图 3 所示,在很大程度上影响生成图像的质量和可控性。总结并分析了由不同编码器类型(例如 VAE 与 CLIP 编码器)和损失函数(例如 MSE 与流匹配)引入的权衡。
CLIP + MSE参考 Emu2、Seed-X 和 Metamorph,使用 CLIP 将图像编码为 64 维的固定长度、语义丰富的视觉嵌入。自回归模型被训练以最小化预测视觉特征 与真实 CLIP 嵌入 之间的均方误差(MSE)损失,如图 3(a) 所示。在推理阶段,给定文本提示 ,自回归模型预测潜在视觉特征 ,随后这些特征被传递给基于扩散的视觉解码器以重建真实图像。
CLIP + 流匹配
作为 MSE 损失的替代方案,我们采用流匹配损失来训练模型预测真实的 CLIP 嵌入,如前图 3(b) 所示。给定提示 ,自回归模型生成一组视觉特征 。这些特征作为条件,用于引导扩散过程,生成的预测 CLIP 嵌入用以逼近真实的 CLIP 特征。本质上,推理流程包括两个扩散阶段:第一个阶段使用条件视觉特征 迭代去噪为 CLIP 嵌入,第二个阶段将这些 CLIP 嵌入转化为真实图像,依然是通过基于扩散的视觉解码器。该方法在第一阶段允许进行随机采样,从而提升图像生成的多样性。
VAE + 流匹配
我们也可以使用流匹配损失来预测真实的 VAE 特征,如图 3(c) 所示,这类似于 MetaQuery。在推理时,给定提示 ,自回归模型生成视觉特征 。然后,在以 为条件、逐步去除噪声的过程中,通过 VAE 解码器生成真实图像。
VAE + MSE
由于本文的重点在于自回归 + 扩散的框架,不考虑 VAE + MSE 的方法,因为它们未包含任何扩散模块。
实现细节
为了比较各种设计选择,使用 Llama-3.2-1B-Instruct 作为自回归模型。训练数据包括 CC12M、SA-1B 和 JourneyDB,总计约 2500 万条样本。对于 CC12M 和 SA-1B,我们使用 LLaVA 生成的详细图像描述;对于 JourneyDB,我们使用其原始的标题说明。
结果
在 MJHQ-30k 数据集上报告了 FID 分数,用于评估图像的审美质量,同时使用 GenEval和 DPG-Bench 指标评估提示对齐情况。每隔约 3,200 个训练步记录一次各个设计方案的结果。下图 4 显示,CLIP + Flow Matching 在 GenEval 和 DPG-Bench 上获得了最佳的提示对齐分数,而 VAE + Flow Matching 产生了最低(最佳)的 FID 分数,表明其审美质量更高。
然而,FID 存在固有的局限性:它衡量的是与目标图像分布的风格偏差,往往忽视了真实的生成质量与提示对齐程度。事实上,对 GPT-4o 在 MJHQ-30k 数据集上的 FID 评估得分约为 30.0,这进一步说明在图像生成评估中 FID 可能具有误导性。总体而言,我们的实验表明 CLIP + Flow Matching 是最有效的设计方案。
讨论在统一的多模态框架下对多种图像生成设计方案进行了全面评估。结果清楚地表明,CLIP 特征相比 VAE 特征能够生成更加紧凑且语义丰富的表示,从而提高了训练效率。自回归模型能够更有效地学习这些语义层级的特征,而不是像素级别的特征。此外,流匹配被证明是更有效的训练目标,能够更好地建模图像分布,从而带来更高的样本多样性和更佳的视觉质量。
统一多模态模型的训练策略
在图像生成研究的基础上,下一步是开发一个统一的模型,既能执行图像理解,也能进行图像生成。我们在图像生成模块中采用 CLIP + Flow Matching。由于图像理解也在 CLIP 的嵌入空间中进行,我们将两个任务对齐到同一个语义空间中,实现统一。在此背景下,讨论实现该整合的两种训练策略。
Finding1
当将图像生成集成到统一模型中时,自回归模型比像素级特征 (VAE) 更有效地学习语义级特征 (CLIP)。
Finding2
采用流量匹配作为训练目标,可以更好地捕捉潜在的图像分布,从而提高样本多样性和视觉质量。
联合训练与顺序训练
联合训练联合训练图像理解与图像生成任务已经成为近期工作的常见实践,例如 Metamorph、Janus-Pro 和 Show-o。尽管这些方法在图像生成方面采用了不同的架构,它们都通过混合图像生成和图像理解的数据实现多任务学习。
顺序训练不将图像理解与生成一同训练,而是采用两阶段的方法。在第一阶段,仅训练图像理解模块。在第二阶段,冻结多模态大语言模型(MLLM)的主干,仅训练图像生成模块,该策略类似于 LMFusion 和 MetaQuery。
讨论
在联合训练设置中,尽管如 Metamorph所示,图像理解与生成任务可能互相促进,但两个关键因素影响其协同效果:(i)总数据量和(ii)图像理解与生成数据之间的比例。
相比之下,顺序训练提供了更大的灵活性:它允许我们冻结自回归主干网络,同时保留图像理解能力。我们可以将全部训练能力专用于图像生成,避免联合训练中的任务间干扰。也受到 LMFusion 和 MetaQuery 的启发,我们选择顺序训练来构建统一的多模态模型,并将联合训练留待后续工作中展开。
BLIP3-o:我们最先进的统一多模态模型
基于前述研究发现,采用 CLIP + Flow Matching 和顺序训练策略,构建了我们自己的最先进统一多模态模型 —— BLIP3-o。
模型架构
本文构建了两个不同规模的模型:
一个 8B 参数模型,使用了专有数据进行训练; 一个 4B 参数模型,仅使用开源数据进行训练。
考虑到目前已有强大的开源图像理解模型(如 Qwen 2.5 VL ),跳过图像理解阶段,将图像生成模块直接建立在 Qwen 2.5 VL 上。
在 8B 模型中,冻结 Qwen2.5-VL-7B-Instruct 的主干网络,仅训练扩散Transformer(Diffusion Transformers),总计约 1.4B 可训练参数。 4B 模型采用相同的图像生成架构,但使用 Qwen2.5-VL-3B-Instruct 作为主干。
Diffusion Transformer 架构我们在 Diffusion Transformer(DiT)中借鉴了Lumina-Next 模型的架构,后者基于改进的 Next-DiT 架构,是一种可扩展、高效的扩散模型,面向文本生成图像及通用多模态生成任务。
关键设计包括:
3D 旋转位置嵌入(3D Rotary Position Embedding):在时间、高度和宽度维度上编码时空结构,无需依赖可学习位置向量; Sandwich 归一化:在 Attention/MLP 前后分别使用 RMSNorm,提高稳定性; Grouped-Query Attention:降低计算开销、增强模型表现。
实验证明,该架构具备快速、高质量的生成能力。
训练方案
阶段 1:图像生成预训练对于8B 模型,使用约2,500 万条开源数据(CC12M、SA-1B、JourneyDB),加上3,000 万张专有图像;图像标题由Qwen2.5-VL-7B-Instruct自动生成,平均长度达120 个 token;为增强对短提示的泛化能力,额外加入约10%(600 万) 来自 CC12M 的短标题(约 20 token);所有图文对格式统一为:"Please generate an image based on the following caption: <caption>"
;对于4B 模型,则仅使用前述 2,500 万条开源数据,并附带3 百万短标题;公开发布了这2,500 万详细标题和 3 百万短标题 数据集,以支持研究社区。
阶段 2:图像生成指令微调在图像生成预训练后,观察到模型在以下方面存在弱点:
复杂人体动作(如:"一个人正在拉弓搭箭"); 常见物体(如:各种水果、蔬菜); 地标建筑(如:金门大桥); 简单文字(如:"Salesforce" 出现在街道上的文字);
虽然这些范畴已包含在预训练中,但由于语料数量有限,学习效果不足。为此我们进行了针对性指令微调:使用 GPT-4o 为每类生成约10,000 对提示–图像数据,构建覆盖这些范畴的定向微调集;为提升图像美学质量,还引入了 JourneyDB 和 DALL·E 3 的提示;最终汇总成一份约60,000 条高质量提示–图像对,并公开发布该 BLIP3o-60k 微调集。
实验结果
本文与多个现有统一多模态模型进行了比较,包括:EMU2 Chat、Chameleon、Seed-X、VILA-U、LMfusion、Show-o、EMU3、MetaMorph、TokenFlow、Janus、Janus-Pro。
图像理解任务在以下基准上进行评估: VQAv2、MMBench、SeedBench、MM-Vet、MME-Perception、MME-Cognition、MMMU、TextVQA 和 RealWorldQA。 如下表 1 所示,BLIP3-o 8B 在大多数任务中取得了最佳表现。
图像生成任务本文报告以下指标:
GenEval 与 DPG-Bench:评估提示对齐; WISE:评估模型的世界知识推理能力。
如下表 2 所示,BLIP3-o 8B 达到了:
GenEval 分数:0.84 WISE 分数:0.62 DPG-Bench 分数较低(但由于其为基于模型的自动评估,准确性不稳定)
为弥补 DPG-Bench 的不足,还对其所有提示进行了人工评估。此外,发现仅使用BLIP3o-60k 微调集,就能显著提升模型的提示对齐能力和图像美学质量,同时减少生成伪影。尽管一些难点(如复杂动作)仍无法完全解决,但整体图像质量已获得明显改善。
Finding3
该模型能够快速适应 GPT-4o 风格,提高快速对准和视觉质量。该模型从人工智能生成的图像中学习比从真实图像中学习更有效。
人类研究
对大约 1,000 条来自 DPG-Bench 的提示进行人类评估,比较 BLIP3-o 8B 与 Janus Pro 7B。在每条提示中,标注员基于两个指标对图像对进行并排比较:
视觉质量:说明为"所有图像均由相同的文本输入使用不同的方法生成。请根据视觉吸引力(如布局、清晰度、物体形状和整体整洁性)选择你最喜欢的图像。" 提示对齐:说明为"所有图像均由相同的文本输入使用不同的方法生成。请选择与图文内容对齐度最佳的图像。"
每个指标分别评估两轮,每项标准大约产生 3,000 个判断结果。如下图 6 所示,BLIP3-o 在视觉质量和提示对齐方面均优于 Janus Pro,尽管 Janus Pro 在前表 2 中取得了更高的 DPG 分数。视觉质量和提示对齐的 p 值分别为 5.05e-06 和 1.16e-05,表明本文的模型以高度统计显著性优于 Janus Pro。
未来工作
目前正在将本文的统一多模态模型扩展到下游任务,例如图像编辑、多轮视觉对话以及图文交错生成。作为第一步,将专注于图像重建:将图像输入图像理解视觉编码器,再通过图像生成模型进行重建,以无缝连接图像理解与生成。在此能力的基础上,将收集指令微调数据集,以将模型适配于各种下游应用。
总结
本文首次系统性地探索了混合自回归与扩散架构在统一多模态建模中的应用,评估了三个关键方面:图像表示(CLIP 与 VAE 特征)、训练目标(Flow Matching 与 MSE)以及训练策略(联合训练与顺序训练)。我们的实验表明,CLIP 嵌入结合 Flow Matching 损失在训练效率和输出质量方面均表现更优。基于这些见解,本文推出了 BLIP3-o 系列最先进的统一模型,并辅以 60k 条指令微调数据集 BLIP3o-60k,在提示对齐和图像美学方面显著提升。我们正积极推进该统一模型在迭代图像编辑、视觉对话和逐步视觉推理等应用中的发展。
参考文献
[1] BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Dataset
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论