如您有工作需要分享,欢迎联系:aigc_to_future
作者:Qi Qin、Peng Gao等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2503.21758
Git链接:https://github.com/Alpha-VLLM/Lumina-Image-2.0
Demo链接:https://huggingface.co/spaces/Alpha-VLLM/Lumina-Image-2.0
亮点直击
统一架构(Unified Next-DiT):首次将文本和图像 token 作为联合序列处理,实现自然的多模态交互,避免传统跨注意力的局限性,支持灵活的任务扩展。 专有标注系统(UniCap):针对T2I任务优化的高质量标注模型,显著提升文本-图像对齐质量,加速模型收敛并增强提示跟随能力。 高效训练与推理优化:结合多阶段训练、CFG 动态调整和先进求解器,在保持生成质量的同时大幅提升效率,适合实际部署。 小参数量高性能:仅 2.6B 参数即可媲美更大规模模型,验证了架构设计的高效性和可扩展性。
总结速览
解决的问题
架构限制:现有文本到图像(T2I)生成模型依赖跨注意力机制,文本嵌入作为固定外部特征,限制了多模态融合效率,且难以扩展新任务。 数据质量不足:缺乏专为T2I生成优化的高质量文本-图像配对数据,现有描述不准确或不充分,影响模型对文本指令的遵循能力。 训练与推理效率:大规模扩散模型训练和推理计算成本高,需优化加速策略。
提出的方案
统一架构(Unified Next-DiT):采用联合自注意力机制,将文本和图像 token 作为统一序列处理,支持端到端多模态交互,便于任务扩展。 - 统一标注系统(UniCap):专为T2I任务设计的高质量标注模型,生成语义对齐的多维度、多粒度文本描述,提升训练数据质量。 高效训练与推理技术: 训练:多阶段渐进式训练策略、多域系统提示、辅助损失函数。 推理:CFG-Renorm(解决过饱和问题)、CFG-Trunc(减少冗余计算)、Flow-DPM-Solver 和 TeaCache(加速采样)。
应用的技术
扩散Transformer(DiT):基于联合自注意力的统一架构,支持动态调整文本-图像交互。 多模态对齐优化:通过 UniCap 生成高质量文本描述,增强模型对复杂场景的理解。 推理加速技术:结合 CFG 优化、流式求解器和缓存机制,提升生成速度。
达到的效果
强扩展性:仅需 2.6B 参数量即可实现高性能,支持多任务扩展。 高质量生成:在 DPG、GenEval 等基准测试中表现优异,人类评估(ELO排名)显著优于前代模型(Lumina-Next)。 高效推理:优化技术使推理速度提升,同时保持图像质量。
Lumina-Image 2.0
框架概述
Lumina-Image 2.0通过整合Unified Next-DiT、统一标注器(UniCap)以及一套高效训练和推理策略,建立了一个统一且高效的框架。整体流程如下图2所示,采用定制化过滤流程筛选高质量训练图像。为提升文本质量,我们的UniCap对训练数据重新标注,生成多粒度级别的精准详细文本描述。最终得到的高质量图文对被组织成分层训练数据集,随后用于通过本文提出的训练策略优化Unified Next-DiT模型。最后,引入多项推理策略以高效生成高质量图像。
Unified Next-DiT
在重新审视Next-DiT架构后,发现其采用零初始化门控交叉注意力来融合文本嵌入,这种做法不仅限制了图文对齐能力,在适配新任务时还需额外修改架构。因此,我们提出Unified Next-DiT——一个将文本和图像视为统一序列进行联合注意力的文本生成图像模型,其灵感来源于统一多模态学习的最新进展。
Unified Next-DiT架构
Next-DiT采用Gemma作为文本编码器,其文本嵌入存在由大语言模型因果自注意力导致的单向位置偏差。在生成过程中,这些带有偏差的文本嵌入被固定并通过零初始化门控交叉注意力稀疏注入Transformer块。因此,本文移除了Next-DiT中所有零初始化门控交叉注意力模块,转而采用统一单流块结构:通过拼接标注嵌入和噪声潜变量并执行联合自注意力,实现更高效的图文交互和任务扩展。如上图2所示,本文的单流块在原始DiT块基础上新增了三明治归一化和查询-键归一化以确保训练稳定性。采用多模态RoPE(mRoPE)统一建模图文序列,将文本长度及图像高宽编码至三个维度。此外,研究者们观察到输入级的文本与视觉特征存在显著差距,为此在单流块前引入文本和图像处理器。这些采用轻量级单流块的处理器能促进模态内信息交换并缩小模态间差距。由于标注嵌入在所有时间步固定,文本处理器不包含时间步条件。
与现有架构对比
如下图3所示,将Unified Next-DiT与主流扩散Transformer进行对比。PixArt和Lumina-Next在自注意力后额外使用交叉注意力块注入固定文本嵌入,而本文的模型采用单一统一注意力模块联合处理文本和噪声潜变量。与SD3和FLUX采用的MMDiT架构相比,关键差异在于MMDiT使用双流块结构为图文序列分配独立参数,而本文的方法从更统一的角度出发,用单一参数集同时建模图文序列。本文的模型与OmniGen有相似之处,后者采用单流因果DiT架构实现统一图像生成。但OmniGen为与自回归模型统一架构,移除了自适应层归一化(adaLN)并采用大语言模型初始化的因果自注意力,而adaLN被认为是扩散Transformer的核心组件,且从语言模型初始化可能导致与图像生成知识的冲突。
统一标注器(UniCap)
鉴于图像标注对模型性能提升的关键作用,现有研究通常直接采用预训练视觉语言模型(VLM)进行图像重标注。但这些VLM存在单粒度描述、领域偏差和固定低分辨率输入等局限,导致标注质量欠佳且与真实用户提示存在明显差距。为此,本文开发了统一标注器(UniCap)——一个能统一处理多样化视觉输入,提供多粒度、多视角、多语言高质量文本描述的标注系统,同时引入统一视角使标注驱动的模型能力更具可解释性。
统一文本描述
为使Lumina-Image 2.0能处理多粒度、多视角、多语言的多样化提示,我们训练UniCap生成全类型描述以实现统一图像重标注。具体包含三个关键组件:(1) 多粒度描述方面,首先精心设计提示词引导GPT-4o生成高度细节化描述,再利用开源大语言模型(LLM)同步将详细标注概括为中长描述及标签形式(如图7-8所示),在保留关键信息的同时实现多粒度输出。(2) 多视角描述涵盖图像风格描述、主体对象描述、全对象描述、对象属性描述和空间关系描述,确保对视觉元素、属性、空间结构和风格特征的全面覆盖。(3) 多语言描述通过双语大模型将标注翻译为中文,使UniCap能同步生成双语标注。值得注意的是,尽管UniCap仅使用英中双语标注数据训练Lumina-Image 2.0,但模型借助Gemma的多语言能力意外展现出对其他语言的理解(见下图6),显著扩展了用户覆盖面。
统一视觉理解
现有VLM难以处理开放域多样化图像,且受限于低分辨率输入,无法捕捉图像细粒度细节。为此,我们使用包含自然图像、网络爬取图像、摄影作品、合成图像、多图文档、信息图、OCR相关图像及多语种内容的标注数据集训练UniCap,确保领域覆盖度和概念多样性。不同于LLaVA和ShareGPT4V将不同尺寸图像统一缩放到低分辨率的做法,UniCap采用原生尺寸统一处理策略,显著提升标注准确性、细节还原度,同时减少幻觉现象并改善OCR识别效果。该策略已被SPHINX-X、InternVL和XComposer等最新VLM广泛采用。
受"专精通才智能"(SGI)理念启发,期望Lumina-Image 2.0不仅能展现强大的文本条件生成能力,还可作为多样化视觉生成任务的统一接口。为此,我们收集深度图、姿态图、边缘图和草图等视觉任务的标注数据,将其与配对图像拼接为复合网格,并利用模板化标注(见前图1末行)有效描述底层逻辑过程。这种统一方法使Lumina-Image 2.0能处理超越文本到图像生成的高级任务,为潜在下游应用奠定基础。
标注对模型容量的统一影响
详细图像标注对扩散模型规模化训练的重要性已在多项研究中得到验证。在Lumina-Image 2.0训练过程中,特别观察到图像标注的长度和质量直接影响模型收敛速度。如下图4所示,本文采用三种标注版本进行对比实验:(1) Florence生成的短标注,(2) UniCap生成的简短精准标注,(3) UniCap生成的详细长标注。实验表明,随着标注精度和细节度的提升,模型收敛速度显著加快。这一现象与先前研究[58,22]的结论一致——推理阶段更长的标注通常能带来更好的生成效果。这些发现促使我们重新思考标注嵌入在文本到图像生成中的作用机制。
从可解释性角度提出新见解:图文注意力操作可视为动态前馈网络(FFN),其中标注嵌入的选择决定了知识整合效率与表征能力。
一般来说,Transformer的 FFN 层可以被解释为一个键值存储器,其封装了模型获得的一般知识,甚至可以手动构建而不需要训练。还有研究表明,FFN层可通过带持久记忆的自注意力有效替代。
基于这些发现,本文进一步探索图文注意力与FFN机制的关联。需要说明的是,"图文注意力"既包括Next-DiT和PixArt采用的独立交叉注意力,也涵盖联合自注意力模型(如Unified Next-DiT)中的图文交互组件。
给定图像token序列和文本token序列,标准图文注意力可等价改写为FFN形式:
其中表示Softmax函数,两个"权重矩阵"均以文本嵌入为条件参数。
其中、和分别是查询(query)、键(key)和值(value)的权重矩阵,是查询/键的维度。值得注意的是,和之间的隐藏维度会随着上下文长度动态变化。在这种形式下,文本到图像的注意力计算可以被视为一个参数由超网络生成的FFN(前馈网络),具有动态权重和动态隐藏大小。具体来说,条件信息(即文本)被编码形成动态权重,而隐藏大小会通过其长度调整这个类FFN模块的容量。
从这个角度来看,本文得出了一个有趣的结论——增加描述长度实际上是一种可控制的模型参数扩展手段。这一见解表明,只需调整描述的文本长度,就可以调节模型在训练和推理时的容量,从而可能带来更好的知识学习和整体性能提升。这些发现与现有工作[66,67]的最新趋势一致,并突出了推理时扩展等有前景的方向。
高效训练策略
Lumina-Image 2.0提出了一套集成多阶段渐进训练、分层高质量数据集、多域系统提示和辅助损失的高效训练框架,在提升图像质量与细节精度的同时加速收敛。
多阶段渐进训练
不同于先前工作采用的三阶段分辨率渐进训练(通常包含512中间阶段),跳过512分辨率阶段并新增高质量调优阶段,形成:
低分辨率阶段(256):学习全局与低频信息(领域知识/对象关系/结构模式) 高分辨率阶段(1024):迁移知识至更高分辨率 高质量调优阶段(1024):增强细粒度视觉细节
分层高质量数据
相比Lumina-Next在各阶段使用固定数据集,我们通过图像质量(如美学评分)分级筛选构建分层数据集:
初始110M样本池 低分辨率阶段选用100M样本 高分辨率阶段精选剩余10M高质量子集 最终调优阶段使用最高质量的1M样本
多域系统提示
针对合成数据与真实数据间的领域差异问题,受ChatGPT[23]启发设计差异化系统提示:
模板A/B(见表1):分别用于三阶段训练,直接预置在图像提示前 模板C:专为统一多图生成任务设计
辅助损失函数
高分辨率训练时,模型在提升高频细节的同时可能出现低频结构退化。为此引入基于下采样(4倍)隐空间特征的流匹配目标[42]作为辅助损失:
其中:
时间步: 表示归一化的时间步 隐空间特征降采样: 表示通过4倍平均池化下采样的潜在特征 噪声生成:为标准高斯随机噪声 预测向量场: 目标向量场:
高效推理优化
为在保证生成质量的前提下最大化采样速度,Lumina-Image 2.0对推理效率进行了深度优化。
CFG重归一化(CFG-Renorm)
分类器自由引导(CFG)可提升生成质量与图文对齐度,其速度预测公式为:
其中为CFG缩放系数,和分别表示条件/无条件速度。但过大的会导致某些维度激活值异常,引发生成伪影。CFG-Renorm[27]通过条件速度的幅值对修正后速度进行重缩放。
该方法在不增加计算开销的情况下,显著提升CFG引导的稳定性。
CFG截断(CFG-Trunc)
最新研究[28]表明文本信息主要在生成早期阶段被捕获。因此后期计算存在冗余,CFG-Trunc可表述为:
其中为截断阈值(实验设定为总步数的30%)。该策略减少约20%计算量,同时维持同等生成质量。
Flow-DPM-Solver (FDPM)
Lumina-Next 支持一系列的 ODE 求解器,比如 Midpoint 和 Euler 方法。虽然这些求解器确保了稳定性,但它们相对较慢,因为它们不是为流模型设计的,需要大量的函数评估 (NFE) 才能收敛。为了改进这一点,我们将修改 DPM-Solver++ 到流模型的 FDPM集成到 Lumina-Image 2.0 中。FDPM 仅在 14-20 个 NFEs 中实现收敛,提供了更快的采样解决方案。然而,发现 FDPM 在实际应用中有时会出现稳定性差的问题。
时序感知缓存(TeaCache)
TeaCache旨在在推理过程中选择性地缓存信息丰富的中间结果,从而加速扩散模型。TeaCache已经成功加速了各种主流图像和视频生成模型,包括FLUX、HunyuanVideo以及Lumina-Next。在成功的基础上,将TeaCache集成到Lumina Image 2.0中。然而,实验表明,当与上述技术结合使用时,TeaCache也会导致视觉质量下降。
讨论
上述四种推理策略相互兼容,可以组合使用。值得注意的是,Lumina Image 2.0首次证明CFG Renorm和CFG Trunc在一起应用时提供了互补的好处。CFG Renorm解决了CFG比例较大时过饱和和视觉伪影的问题,而CFG Trunc通过消除冗余的CFG计算并同时实现加速,进一步缓解了这一问题。通过结合这些技术,CFG标尺的灵活性可以显著扩展到更广泛的范围。FDPM和TeaCache也可以集成到管道中,但两者都存在一定的挑战。FDPM缺乏足够的稳定性,经常产生次优样本,而TeaCache会导致采样图像模糊。
实验
实现细节
训练数据集
综合真实与合成数据[3,4,7,36,15,37,71],经[15,22,58]所述过滤技术处理:
总样本量110M 三阶段训练集:100M(基础)、10M(精选)、1M(极致质量)
架构配置
表2对比Unified Next-DiT与Lumina-Next:
训练设置
表3详述训练配置:
硬件:32×A100
此外,对于多图像生成任务,引入了一个额外的微调阶段,在这个阶段,将不同的视觉任务合并到图像网格中,并为这些连接的网格生成标题,形成图像对。此外,对于UniCap模型,基于构建的具有多域视觉数据和不同文本描述的字幕数据集对Qwen2-VL-7B进行了微调。
量化性能分析
主要结果
主要结果
在三个基准测试上评估了我们的模型:GenEval、DPG 和 T2I-CompBench 。如表4所示,我们的模型在GenEval基准测试的各项指标上均展现出强劲性能。在"双物体"、"计数"、"颜色属性"和"综合"指标上,相较于自回归模型和扩散模型,我们取得了第二名的成绩。
在DPG基准测试中,Lumina-Image 2.0在三个子指标(实体、关系和属性)以及综合指标上均超越了所有对比模型。同样地,在T2I-CompBench测试中,我们的模型在"颜色"和"形状"两项指标上都获得了最佳结果。
在DPG基准测试中取得的显著优势,归功于通过精心设计的标注系统所生成的细致准确的字幕描述。UniCap能够生成极其详尽的长文本描述,这些描述与DPG包含的提示特征高度吻合,从而使得模型在各个指标(特别是关系得分)上都表现优异。
ELO评分对比分析
为更全面评估模型性能,在三个文本生成图像竞技场中展示了基于人工评分的ELO评分结果:
(1)Artificial Analysis平台测试
如表5所示,Lumina-Image 2.0取得中游成绩:
超越几乎所有开源模型(如SD3、Janus Pro) 优于部分闭源系统(如DALL·E 3) 仍落后于FLUX Pro等顶级闭源模型
(2)Rapidata平台能力分析
如表6所示,本模型表现如下:
在提示对齐性(prompt alignment)指标上仅次于FLUX Pro 超过Imagen 3等其他闭源模型 特别验证了Unified Next-DiT架构与UniCap标注系统的有效性
值得注意的是:
Janus Pro在学术基准测试中达到SOTA 但在用户主导排行榜上显著低于Lumina-Image 2.0和FLUX Pro 该差异揭示了当前学术基准存在的固有偏差与局限性
(3)AGI-Eval平台结果
如表7所示:
Lumina-Image 2.0显著超越前代Lumina-Next 同时优于所有其他中文开源模型
期望通过此项全面评估:
为学界提供对Lumina-Image 2.0能力与局限的清晰认知 指导未来改进方向 强调开发更符合人类偏好的评估基准对准确衡量模型性能、推动生成模型发展的重要性
定性性能表现
多语言生成能力
采用Gemma2-2b作为文本编码器(对比传统CLIP/T5方案),模型展现出德语/日语/俄语等语言的零样本生成能力。如前面图6所示,五国语言提示均能生成语义准确的图像。
UniCap标注系统对比
从四个维度比较UniCap 与现有的描述器,如 ShareGPT4V和Florence: 复杂的场景,密集的文本,视觉理解和空间关系。UniCap 支持多语言注释,包括中文和英文,并且可以生成不同长度的标题以满足不同的用户需求。如图 7 和图 8 所示,UniCap 提供了非常详细和准确的描述,明显优于其他两种方法。
高质量图像生成
在图9中,展示了Lumina Image 2.0的其他生成结果。这些结果表明,我们的模型能够以各种分辨率生成高质量的图像,这些图像在视觉上更加真实、高度美学和创造性表达。此外,对不同长度的中英文提示进行的广泛实验表明,文本图像对齐是稳健的。
消融实验
多阶段训练策略消融实验
在三个阶段渐进式训练过程中,随着数据集规模减小和质量提升,模型性能持续改善。如表8和图10所示,从第二阶段到第三阶段,定量指标和损失曲线趋势均显示性能持续提升:
高质量调优阶段:仅用1K训练步即取得显著改进 DPG基准测试:85.7 → 86.6 GenEval基准测试:0.67 → 0.71 后续训练现象: 第三阶段11K步时,DPG指标持续提升 GenEval指标出现轻微下降 整体呈现性能波动特征
高效推理策略消融实验
如图11所示,在1024分辨率设置下评估了四种推理策略(CFG-Renorm、CFG-Trunc、FDPM、TeaCache)的效率表现:
CFG混合策略(CFG-Renorm + CFG-Trunc):
显著节省采样时间 对生成质量影响可忽略(详见4.5节方法) FDPM集成:
有效缩短推理时间 存在稳定性缺陷,会降低生成质量 TeaCache加速:
进一步提升采样速度 导致图像模糊等显著质量下降
最终方案选择: 实际部署采用CFG-Renorm与CFG-Trunc融合策略,在效率与质量间取得最优平衡
局限性
尽管遵循了之前的工作[8,15,44,10,37],在GenEval和T2ICompBench等基准上评估了我们的方法,与最先进的模型实现了可比的性能,但认为这些学术基准并不全面,有时可能无法准确评估与人类感知一致的图像质量。为了说明这一点,图12突出了Lumina Image 2.0的几个局限性。
首先,对于复杂多样的结构(如人体)和训练数据中的罕见概念(如手枪),我们的模型很难始终如一地生成正确的结果。 其次,当处理具有复杂纹理的图像时,例如密集拥挤的场景或轮胎轮辐,我们的模型经常会产生混乱的细节。 最后,我们的模型在准确呈现长而复杂的文本方面仍需要实质性的改进。
结论
Lumina-Image 2.0,一个统一高效的文本到图像生成框架,在图像质量和提示对齐方面均实现了强劲性能。具体而言,开发了Unified Next-DiT模型,通过文本和视觉信息的无缝集成来生成高质量图像。提出了统一描述生成器(UniCap)来生成详细准确的文本描述,以构建高质量的图像-文本训练对。此外,还开发了一套高效的训练和推理策略,在降低计算成本的同时进一步优化性能。Lumina-Image 2.0在公共基准测试中取得了令人瞩目的性能,并提供了一个透明、可复现的文本到图像生成框架。我们希望本文的模型能推动文本到图像生成领域的发展。
参考文献
[1] Lumina-Image 2.0: A Unified and Efficient Image Generative Framework
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论