如您有工作需要分享,欢迎联系:aigc_to_future
作者:Shufan Li等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2509.19244
亮点直击
第一个多模态 MDM,在文本生成图像、图像编辑和定位任务中实现了SOTA性能,超越了现有的 MDMs、自回归模型和连续扩散模型。 为大规模掩码图像生成模型和统一多模态模型提出了若干高效且有效的训练和推理技术,如Elastic-MoT 架构、通用文本条件和分层采样,显著推动了相关领域的发展。 引入了一种新范式,明确利用统一模型的理解能力,通过规划和自我反思来改进其生成能力。
总结速览
效果一览
解决的问题
现有多模态扩散语言模型(如 MMaDa 和 Muddit)仅支持简单的图像级理解任务和低分辨率图像生成,无法有效处理复杂的对象定位、图像编辑和高分辨率图像合成任务。
提出的方案
开发 Lavida-O,这是一种统一的多模态掩码扩散模型,能够执行图像理解和生成任务。它利用模型的理解能力,通过规划和迭代自我反思来改进图像生成和编辑结果。
应用的技术
引入弹性Transformer混合架构(Elastic Mixture-of-Transformer)、通用文本条件(universal text conditioning)和分层采样(stratified sampling)等新技术,以实现高效的训练和采样。
达到的效果
Lavida-O 在多个基准测试中实现了最先进的性能,如 RefCOCO 对象定位、GenEval 文本生成图像和 ImgEdit 图像编辑,超越了现有的自回归和连续扩散模型(如 Qwen2.5-VL 和 FluxKontext-dev),并在推理速度上显著提升。
方法
模型架构
Lavida-O 的模型架构基于 LaViDa,这是一种能够执行图像理解任务的扩散视觉语言模型。LaViDa 使用 SigLIP视觉编码器将输入图像转换为连续的语义嵌入 ,这些嵌入与文本提示的 token 嵌入 连接起来,形成视觉理解任务的最终条件嵌入 。在每个推理步骤中,扩散模型使用部分未掩盖的答案 和条件嵌入 来预测反向分布 ,其中 是干净的文本答案。
对于图像理解任务,Lavida-O 保留了 LaViDa 的这一设置。为了整合视觉生成任务,本文通过使用 VQ-Encoder 将目标图像表示为离散 token 序列来扩展 LaViDa 的设计。在执行这些任务时, 和 不仅包含文本 token,还包含代表图像的 VQ token 。对于图像编辑和交错生成任务,本文另外将输入图像的 VQ token 作为条件嵌入的一部分 ,因为仅使用语义嵌入 可能会丢失编辑所需的低级细节。为了减少 token 数量并提高计算效率,本文引入了一个 token 压缩模块,将 VQ token 的数量减少了 4 倍。整体流程如下图 2 所示。
弹性Transformer混合架构(ElasticMoT)
本文目标是找到一种有效且高效的方法,使仅具备理解能力的扩散模型 LaViDa 具备视觉生成能力。然而,正如在前文中描述的两种现有常用选择——密集模型和 MoT——都非常昂贵。密集模型在理解和生成任务中使用相同的参数集,需要在训练期间混合使用理解和生成数据以防止灾难性遗忘,这并不高效。而 MoT 设置允许冻结理解分支,仅训练用于图像生成的生成分支,但其架构使总参数数量翻倍,导致相当大的计算开销。此外,给定一个 80 亿参数的基础理解模型,这两种设置都需要从头开始训练至少 80 亿参数用于生成任务,这在成本上是不可接受的。
为了解决这些限制,提出了 Elastic-MoT,这是一种新颖的架构设计,可以高效地将仅具备理解能力的模型适应于图像生成任务。与普通的 MoT 架构相比,Elastic-MoT 引入了两个主要修改。首先,生成分支的隐藏大小比理解分支小。这减少了参数数量并实现了高效训练。本文基于观察得出这一设计选择,即许多文本生成图像模型仅用 20–40 亿参数就能生成高质量的图像,这表明生成任务可能不需要像理解任务那样多的容量。其次,给定一个 层模型,本文不是在所有层上进行联合注意力,而是仅允许文本和图像模态在前 层交互。在剩余的 层中,文本和图像 token 仅通过自注意力在各自的模态内交互。这一设计仅为不同任务激活部分参数。例如,在 Lavida-O 的最终设计中,生成分支包含 24 亿个新参数,而理解分支有从 LaViDa 初始化的 80 亿个参数。对于一个 层的模型,本文设置 。对于图像生成任务,本文激活图像生成分支的所有 24 亿参数和理解分支前 16 层的 40 亿参数,总共 64 亿个活跃参数。在文本生成图像的预训练中,本文仅训练生成分支中的 24 亿参数,并省略加载理解分支的最后 16 层,因为它们未被使用。这使得文本生成图像的预训练能够高效扩展,而无需引入额外的理解数据或承受 MoT 的大参数量。
类似地,对于理解任务,活跃参数数量为 80 亿,对于需要同时理解和生成的任务(例如交错生成),活跃参数数量为 104 亿。Elastic-MoT 的完整设计如下图 3 所示。
模态感知掩码
在为 MDMs 适应 MoT 架构时,其中一个挑战是路由——确定每个 token 应激活哪个分支的机制。这对于统一的自回归 MoT 模型来说是简单的,模型可以学习生成一个特殊 token (例如,[img start])来指示下一个 token 应使用生成分支。当图像的最后一个 token 生成后,模型会自动切换回理解分支继续文本生成。然而,这种方法对于 MDMs 来说不可行,因为 MDMs 并行解码 token,必须预先决定哪些掩码 token 应路由到理解分支,哪些应路由到生成分支。一个简单的解决方案是让用户指定文本和图像 token 的数量和位置,但这对于交错生成(如带有自我反射的图像生成)来说很困难。为了解决这个问题,本文设计了一种模态感知掩码过程。
给定一个由 个文本 token 和 个图像 VQ token 组成的序列,普通的前向扩散过程会在时间区间 内逐渐将其转换为 个掩码 token 。相比之下,本文的模态感知前向过程引入了一个特殊的时间戳 ,在这个时间点,完全掩码的图像 VQ token 会被压缩成一个特殊的 [exp] 文本 token 。此过程如下图 4a 所示(自下而上)。在推理时,本文假设所有掩码 token 在开始时都是文本 token 。当生成 [exp] token 时,本文将其替换为一个 掩码 token 序列,并指定这些 token 将在后续的前向调用中由生成分支处理以进行图像合成。 由预先指定的图像分辨率决定。此过程也在下图 4a 中(自上而下)进行了说明。
任务特定设计
在本节中,本文描述了一些额外的技术创新,以提高新纳入任务(如图像生成、图像编辑和基础)的有效性和效率。
通用文本条件。 提高文本生成图像模型质量的常见方法是微条件,它将图像生成过程基于额外的参数,如原始图像分辨率、裁剪坐标和图像质量分数。这通常通过专门的嵌入或调制层实现。然而,由于统一模型具有强大的语言理解和推理能力,本文可以简单地将这些条件作为普通文本(例如,"SCORE: 5.40")附加到用户提示的末尾。除了常见条件之外,本文还将图像亮度和对比度作为微条件纳入。这种简单而有效的设计不仅通过引导生成朝向高评分分布来提高图像质量,还为用户提供了对输出的更精细控制。
分层随机采样。 现有的 MDMs 大多在推理时采用基于置信度的采样,其中高置信度分数的 token 优先被去掩码。然而,这种设计对于图像生成来说并不理想,因为每一步需要解码许多 token 。特别是,高置信度 token 往往聚集在已去掩码 token 相邻的小空间区域。这对图像质量产生负面影响,因为相邻 token 高度相关,而 MDMs 独立采样所有去掩码 token,并假设它们的联合分布完全分解。为了解决这个问题,本文旨在通过最大化它们的空间距离来最小化每一步去掩码 token 之间的相关性。本文通过分层随机采样过程实现这一目标,确保去掩码 token 在图像中均匀分布。具体而言,本文首先将图像划分为 的正方形区域,并在每个区域内随机去掩码一个 token 。然后本文将每个区域再细分为 4 个子区域,总共 16 个。四个已经包含一个去掩码 token ;本文从剩余的 12 个中随机去掩码一个 token 。本文重复此过程,直到所有 token 都被去掩码。此过程如上图 4b 所示。
规划和推理。 虽然现有的统一 MDMs 将图像理解和生成任务与单一扩散目标整合在一起,但它们并未包含利用理解来改善生成的机制,除了假设联合训练对两项任务都有益。为了解决这个问题,本文引入了两个利用理解来改善生成的明确机制:规划和反思。通过规划,模型首先生成由边界框表示的图像布局,然后相应地创建实际图像。对于图像编辑任务,它首先识别所需的编辑区域,然后生成编辑后的图像。通过反思,模型利用其理解能力评估自己的生成,判断其是否满足用户的请求。如果检测到不一致,模型会生成一个新图像以纠正错误。示例如下图 1 所示。
对象定位与坐标量化。 MDM 的双向上下文自然允许边界框坐标的并行解码。虽然 Lavida-O 可以将数字表示为普通文本,但本文采用了一种专门的方案,将所有边界框坐标标准化为 并量化为 1025 个离散 token,表示 , , ..., 。这确保每个边界框正好由四个 token 表示。在推理时,本文构建一个多查询输入,其中包含掩码 token,例如"一个狗 [m][m][m][m]; 一只猫 [m][m][m][m]",并同时去掩码所有坐标。此设计允许本文在单个扩散步骤中解码多个边界框,大大提高了效率。
实验
设置
从 LaViDa 开始,这是一个仅用于理解的 80 亿参数的扩散模型,并使用前文中描述的 ElasticMoT 架构扩展出一个 24 亿参数的图像生成分支。训练包括三个阶段:
阶段 1:本文继续在对象定位和图像级理解任务上使用 1200 万样本训练基础模型。在此阶段,生成分支未激活。 阶段 2:本文使用 2 亿个图文对对 24 亿参数的图像生成分支进行文本生成图像任务的预训练。在此阶段,本文使用第 3.1.1 节中描述的 ElasticMoT 设计加载 24 亿 + 40 亿参数。本文冻结理解分支,仅训练生成分支,从而避免需要包括理解数据以防止遗忘。为了进一步提高训练效率,本文从 256 分辨率开始,并在训练过程中逐步增加到 512 和 1024。 阶段 3:在最后阶段,本文对整个 24 亿 + 80 亿模型进行端到端联合训练,涵盖图像级理解、文本生成图像、图像编辑和交错生成任务,如规划和自我反思。除了前几个阶段使用的数据外,本文还加入了 150 万图像编辑样本和 300 万交错生成样本。
图像理解
在下表 2 中报告了图像理解任务的性能。Lavida-O 在 MMMU、MME和 MMB上相较于之前的最先进统一扩散模型 MMaDa 取得了显著的优势。与基础模型 LaViDa 相比,Lavida-O 在大多数基准测试上实现了显著的改进,如 ChartQA 、DocVQA、ScienceQA和 MathVista,这得益于训练数据的扩展。
文本生成图像
本文在 GenEval 和 DPG 基准测试上报告了文本生成图像的结果,并在 MJHQ 数据集的 30k 个提示上报告了 FID 分数。本文与包括 Flux-dev 、SD3-Medium 、Meissonic 和 DALLE-3 在内的文本生成图像模型进行比较,以及包括 BAGEL 、Show-o 、MMaDa 和 Muddit 在内的统一模型。Lavida-O 显著超越了最先进的掩码图像生成模型 Meissonic,以及统一模型如 MMaDa 和 Muddit。规划和反思进一步增强了对提示的跟随性能。由于 MJHQ 的规模较大且 FID 不反映提示跟随能力,本文未在 MJHQ 上启用规划和反思。
目标定位
本文在RefCOCO 指代表达理解 (REC) 任务中评估了 Lavida-O 的目标定位能力,报告了 Precision@0.5 指标。Lavida-O 超越了自回归视觉-语言模型,如 Qwen2.5-VL-7B 和 InternVL3-8B,以及专用模型如 Grounding-DINO-L和 SegLLM-7B。
图像编辑
下表 5 中报告了图像编辑基准测试的性能。Lavida-O 超越了最先进的统一模型如 BAGEL 和专用模型如 FluxKontext-dev。最值得注意的是,Lavida-O 甚至在替换和移除对象方面超越了最先进的闭源模型 GPT4-o,这需要对图像进行局部化理解。这凸显了 Lavida-O 在整合目标定位能力方面的设计有效性。
训练和推理速度
在下图 5 中,本文对 Lavida-O 在三个任务上的推理效率进行了基准测试:文本生成图像、目标定位和数学推理。本文测量了每幅图像的端到端延迟(以秒为单位)。Lavida-O 显著快于自回归模型。值得注意的是,在目标定位任务上,本文比 Qwen2.5-VL-7B快了 6.8 倍。本文还报告了通过每步延迟测量的训练效率,并将本文的 Elastic-MoT 设计与 BAGEL 风格的标准 MoT 设计进行比较,Elastic-MoT 提高了 3.17 倍的训练速度。
结论
Lavida-O,这是第一个多模态掩码扩散模型,在文本生成图像、图像编辑和定位任务上实现了SOTA性能,与最佳的专用模型和自回归统一模型具有竞争力。本文还引入了一种新颖的交错生成范式,通过规划和自我反思,明确利用理解能力来改善统一多模态模型中的生成结果。
在开发 Lavida-O 的过程中,本文提出了几种高效的训练和推理技术,包括 ElasticMoT 架构、通用文本条件和分层随机采样,为未来的掩码扩散模型和统一多模态系统提供了宝贵的见解。
参考文献
[1] Lavida-O: Elastic Masked Diffusion Models for Unified Multimodal Understanding and Generation
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论