👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Rui Tian等
论文链接:https://arxiv.org/pdf/2511.14760
亮点直击
推出UniGen-1.5统一多模态大模型,通过创新的架构设计与训练流程,实现了先进的图像理解、生成与编辑能力融合。 开创统一强化学习训练框架,借助共享奖励模型协同优化图像编辑与生成任务,显著提升双任务性能表现。 提出后SFT阶段的编辑指令对齐机制,通过强化编辑指令理解能力,大幅提升模型编辑效果。 UniGen-1.5在多项任务中达到业界领先水平:如下图1所示,在图像编辑任务(ImgEdit基准测试与GPT-Image-1持平)、图像生成任务(GenEval和DPG-Bench显著超越BLIP3o)均取得竞争优势,同时在图像理解任务也表现出色。
总结速览
解决的问题
能力割裂:需要一种能同时处理高级图像理解、生成与编辑任务的统一模型,以克服传统模型中这些能力相互割裂的局限。 协同优化:如何协同优化图像生成与编辑这两个密切相关但又存在技术差异的任务,以避免独立优化带来的效率低下和性能瓶颈。 指令理解:在图像编辑任务中,模型对复杂、精细的编辑指令的理解精度不足,制约了最终编辑效果的成功率与质量。
提出的方案
核心模型:推出UniGen-1.5统一多模态大语言模型,旨在融合图像理解、生成与编辑三大能力。 训练框架:构建统一强化学习训练框架,利用共享奖励模型同时优化图像生成和图像编辑任务。 性能优化:引入一个轻量级的后SFT(监督微调)编辑指令对齐阶段,专门用于提升模型对编辑指令的精准理解与执行能力。
应用的技术
多模态大语言模型架构:作为模型的基础能力支撑。 统一强化学习策略:核心训练技术,通过共享奖励实现生成与编辑任务的协同优化。 编辑指令对齐机制:一种针对性的后训练技术,用于微调并增强模型的指令遵循能力。
达到的效果
性能领先:在GenEval和ImgEdit等权威基准测试中取得了具有竞争力的分数(分别为0.89和4.31),综合性能超越了BAGEL等先进开源模型,并与GPT-Image-1等顶尖闭源模型性能相当。 全面卓越:在图像生成(显著超越BLIP3o)、图像编辑(与GPT-Image-1持平)和图像理解(与Show-o2性能相当)多项任务上均展现出业界领先的竞争力。 能力融合:成功在一个统一模型中解锁并协同增强了图像理解、生成与编辑三大核心能力。
方法
架构
本文在预训练大语言模型Qwen2.5-7B基础上构建UniGen-1.5,并分别采用独立的编码器处理理解与生成任务。如下图2所示,视觉生成任务使用离散视觉分词器MAGViTv2 ,视觉理解任务则采用连续视觉编码器SigLIP2。
对于图像理解, 采用SigLIP2作为视觉编码器。相比固定输入分辨率(如384×384)的SigLIP,SigLIP2可接收任意宽高比的变尺寸输入图像,这对保持图像原始信息至关重要。输入图像将根据其原始尺寸被映射为一组连续令牌。遵循LLaVA的工作流程,本文通过基于MLP的投影器将图像与文本嵌入对齐至同一空间,随后将视觉嵌入与文本嵌入共同输入LLM,通过下一令牌预测生成响应(上图2(a))。
对于文本到图像生成, 基本沿用UniGen的设置,以掩码令牌预测作为训练目标。对于每张图像,本文通过生成分词器将其编码为离散令牌序列。模型训练目标是根据文本提示生成目标图像令牌。训练过程中,根据掩码调度函数 的掩码率,本文为每个令牌随机采样二值掩码。对于掩码值为1的令牌,将其对应的离散图像令牌替换为特殊掩码令牌[MASK]以形成最终输入图像序列。如上图2(b)所示,LLM接收文本提示和掩码后的图像序列令牌作为输入,并以预测被掩码的视觉令牌为优化目标。推理阶段,图像生成从全掩码令牌开始,通过多轮掩码令牌预测完成生成。图像生成分辨率设置为384×384。
对于图像编辑, 在监督微调阶段解锁该能力。给定条件图像和编辑文本提示,本文联合使用理解编码器和生成分词器,分别获取 和 ,以从条件图像中提取连续(语义)特征和离散(底层)特征。本文将条件图像调整为384×384进行特征提取以确保捕获足够细节。通过MLP层将特征投影至联合空间后,本文按序拼接语义视觉嵌入、文本嵌入和底层视觉嵌入(上图2(c)),并将组装后的序列作为图像编辑条件输入LLM。目标是生成输出图像的离散视觉令牌,其中。与文本到图像生成类似,本文采用掩码令牌预测策略进行图像令牌预测。编辑任务生成分辨率设置为384×384。
预训练
在UniGen-1.5的预训练阶段,旨在通过大规模对齐良好的图文对数据建立基础的视觉描述与生成能力。具体而言,本文采用UniGen包含细粒度标注的预训练数据,包括ImageNet、CC-3M、CC-12M和SAM-11M。同时引入少量RefinedWeb的纯文本训练数据以保持LLM的基础语言能力。为简化流程,本文仅设置单一预训练阶段,并解冻除和外的所有参数。本阶段包含图像理解与文本到图像生成任务,生成与理解的图像输入分辨率均设为384×384。本文按3:2:1的比例从图像生成、图像理解和文本理解任务中采样数据构建训练批次。
监督微调
在监督微调阶段,通过更强化的数据混合方案提升UniGen-1.5的生成与理解性能,并通过联合训练激发其图像编辑能力。
图像生成与编辑。 采用前文中介绍的架构进行图像生成与编辑。受前人工作的启发,本文通过添加BLIP-3o和ShareGPT-4o-Image提出的高质量样本扩展训练数据。同时,通过引入来自ShareGPT-4o-Image和GPT-Image-Edit-1.5M的图像编辑数据解锁编辑能力。
图像理解。 采用SlowFast-LLaVA-1.5的图像数据混合方案以增强图像理解的指令遵循能力。为在保持训练效率的同时促进模型感知输入图像的细微特征,本文按以下规则调整输入图像尺寸:(1) 宽度和高度需为16的倍数以确保与编码器 patch 尺寸兼容;(2) 调整后图像宽高比需最接近原始比例;(3) 在视觉令牌数的约束下最大化输入分辨率(该令牌数约等于768×768图像提取的令牌数)。
联合SFT训练。 与预训练阶段类似,本文在每个训练步骤中同步优化生成(文本到图像生成或图像编辑)、图像理解和文本理解三项任务,训练样本比例设置为3:4:1。实践中,本文交替使用文本到图像生成和图像编辑任务的轮询采样以提高训练稳定性。经过此联合SFT训练后,UniGen-1.5即具备新的图像编辑能力。
编辑指令对齐
在强化学习的初步实验中,发现对于具有挑战性的编辑指令,模型生成的候选图像往往全部无法满足指令要求,导致奖励值的标准差过小。在此情况下,GRPO获得的学习信号较弱,难以有效改进策略。本文将此问题归因于模型对复杂编辑指令的理解能力不足,因而无法准确推断输出图像的语义内容。
为缓解此问题,本文引入编辑指令对齐作为后SFT阶段,以增强编辑指令与期望输出语义内容之间的对齐。如下图3所示,UniGen-1.5以条件图像和编辑指令作为输入,通过预测预期输出图像的文本描述进行优化——这构成了通往最终视觉生成的关键桥梁。该过程使模型能更准确地理解编辑意图,从而在RL阶段生成语义连贯且多样化的候选图像,并提供信息丰富的学习信号。
强化学习
本文通过采用分组相对策略优化(GRPO)的强化学习阶段来提升UniGen-1.5的整体视觉生成质量。尽管系列研究已证明GRPO在提升文本到图像生成性能方面的有效性,但其对更广义视觉生成(如图像编辑)的影响仍待探索。在UniGen-1.5中提出统一文本到图像生成与图像编辑的RL训练(下图4)。具体而言,通过测量图像与其对应文本描述间的语义对齐度来评估两类任务输出图像的质量。
RL公式设定。 以后SFT模型为初始化,UniGen-1.5作为策略模型,接收不同条件输入并生成对应的视觉令牌序列。对于文本到图像任务,条件仅为提示词的文本嵌入;对于编辑任务,则基于、编辑文本嵌入和生成图像。训练过程中,本文从采样个序列作为输出候选,每个候选将获得标量奖励。这些奖励用于计算如公式3.1所示的分组归一化优势度。
本文策略模型的参数通过优化公式3.2中的训练目标进行更新,其中 表示参考策略(初始策略), 代表重要性采样比率, 表示更新前的旧策略。
共享奖励模型。 设计编辑奖励本质上比设计文本到图像生成的奖励更具挑战性,因为视觉编辑通常具有细微性、局部性且高度依赖上下文。此外,训练专用的编辑奖励模型需要大量人工标注成本来收集跨类别的大规模图像编辑数据,并获取符合人类偏好的高质量标签。这些挑战使得大规模构建可靠的编辑奖励极为困难。为此,本文提出利用稳健成熟的文本到图像奖励模型来评估编辑后图像。
具体而言,通过评估两项任务的质量,引入图像生成与编辑的统一强化学习公式,其中表示共享奖励函数,指像素空间中的生成图像,指预期输出的文本描述。对于文本到图像生成,本文直接使用真实文本提示作为;对于图像编辑,则使用Qwen2.5-72B合成的文本描述。相信强大LLM能够可靠反映视觉差异,在其描述中捕捉编辑图像的细节与布局,无论修改幅度大小。受T2I-R1启发,本文采用集成多样化视觉专家的方式实现,为候选图像分配奖励。本文的奖励模型包括CLIP-H、HPSv2、Unified-Reward-7B和ORM。
实验
实现细节
本文使用预训练Qwen2.5-7B LLM初始化UniGen-1.5,采用来自Show-o的MAGVITv2作为离散视觉编码器(输入分辨率384×384),以及siglip2-so400mpatch16-naflex作为连续视觉编码器以支持原生图像分辨率。对于图像生成和编辑,本文利用MAGVITv2解码器将视觉令牌投影回像素空间。所有训练阶段中离散与连续编码器均保持冻结。
预训练阶段使用96张H100-80G GPU,批次大小设为576,学习率设为。监督微调阶段使用64张H100-80G GPU,批次大小设为128,学习率设为。在编辑指令对齐阶段,本文使用8张H100-80G GPU在收集的Edit-Align数据集上训练500步,批次大小为64。此阶段学习率设为并采用余弦调度。为适配推理时的无分类器引导,本文在文本到图像和图像编辑任务训练中随机丢弃文本提示的概率为10%,而在图像编辑训练样本中丢弃和的概率分别为50%和10%。
GRPO阶段本文遵循T2I-R1移除传统比率裁剪,仅采用显式KL惩罚正则化约束策略更新。使用8张B200 GPU进行1500步GRPO训练,学习率设为,批次大小设为32。KL惩罚系数设为0.01,每个输入生成个图像候选。为在最小性能影响下加速训练,每个图像候选仅使用16解码步进行采样,并禁用无分类器引导。
推理阶段遵循MaskGIT使用余弦掩码调度,默认生成步数设为50。此外,本文按照惯例采用无分类器引导尺度:文本到图像生成的引导尺度设为5.0。对于图像编辑,本文通过以下方式构建带无分类器引导的生成过程:
其中 表示 UniGen-1.5 的参数, 表示空条件(丢弃条件), 指编辑指令的引导尺度, 指条件图像的引导尺度。在 ImgEdit 基准测试的评估中,本文分别将 和 设置为 3 和 1.5。
主要结果
本文在下表1、下表2和下表3中将 UniGen-1.5 与最先进的统一 MLLM 进行比较,并根据实验结果总结出以下发现:
首先,UniGen-1.5 在图像编辑基准测试中获得了有竞争力的性能。如表1所示,UniGen-1.5 在 ImgEdit 上展示了最先进的性能。在不借助外部扩散模型的情况下,UniGen-1.5 以显著优势领先该基准测试,其总体得分大幅超过 BAGEL 和 OmniGen2 等类似模型规模的最新模型。值得注意的是,UniGen-1.5 甚至取得了略优于 GPT-Image-1 的性能。
其次,UniGen-1.5 在文本到图像生成基准测试中取得了优异的性能。UniGen-1.5 在 GenEval 和 DPG-Bench 上的最终得分分别为 0.89 和 86.83。与 UniGen 相比,在 GenEval 上提高了 0.11,在 DPG-Bench 上提高了 1.6。UniGen-1.5 在 GenEval 上也击败了一系列最先进的统一 MLLM,尤其是在"位置"类别上。例如,UniGen-1.5 在总分上显著优于 Show-o2、BLIP3-o 和 BAGEL,分别高出 0.13、0.05 和 0.07 分。在 DPG-Bench 上,UniGen-1.5 大幅超越 BLIP3-o 超过 5 分。
第三,UniGen-1.5 有效改进了 UniGen 在理解基准测试上的表现。如表3所示,UniGen-1.5 在所有基准测试上均显著提升了 UniGen 的性能。本文将这些改进归因于三个方面:1) 本文将模型规模扩展到 7B,增强了统一 MLLM 的整体能力;2) 本文提高了输入图像的分辨率并保持原始宽高比,这有利于保留图像的原始信息;3) 本文执行了基于理解的预训练,缓解了生成和理解训练目标之间的不匹配。当与类似规模的其他强大统一 MLLM 比较时,UniGen-1.5 仍然展现出有竞争力的性能,在大多数基准测试上取得了优于 UniToken、MUSE-VL 和 MMaDA 的分数,并与 Show-o2 持平。
消融实验结果
统一 RL 的影响
RL(GRPO)阶段显著改善了图像生成和编辑任务。对比下表4中第一行和最后一行,本文观察到 RL 阶段带来了显著提升,所有三个基准测试均有明显进步(GenEval 从 0.85 提升至 0.89,DPG-Bench 从 84.19 提升至 86.83,ImgEdit 从 3.93 提升至 4.31)。本文在图5中也展示了定性比较。对于文本到图像任务,UniGen-1.5 在计数(第一个示例)、位置(第二个示例)和形状(第三个示例)等多种场景下,展示了文本提示与生成图像之间更好的语义对齐。对于图像编辑,本文观察到 UniGen-1.5 在经过 GRPO 后对条件图像实现了更精细的控制。例如,它成功实现了 GRPO 之前未能完成的"让猫坐起来"(第一个示例)和"提取玻璃瓶"(最后一个示例)。此外,本文认为 GRPO 并未导致理解性能下降。
在 RL 阶段移除文本到图像或图像编辑任一任务均会导致性能显著下降。当在 RL 阶段丢弃图像编辑任务时,图像生成基准测试(GenEval 和 DPG-Bench)的结果与完整 UniGen-1.5 相当,但 ImgEdit 基准测试得分大幅下降(上表4第2行 vs 第4行)。当在 RL 训练中移除文本到图像任务时,本文观察到文本到图像生成性能显著下降。同时保留两项任务可获得最佳整体性能。
编辑指令对齐的影响
编辑指令对齐是RL阶段的重要前置步骤。本文首先通过比较SFT阶段的结果来评估添加此阶段的效果。如下表5所示(第1行 vs 第2行),即使在RL阶段之前,添加编辑指令对齐也能提升所有三个基准测试的性能,这表明该阶段具有普遍优势。
编辑指令对齐的影响在RL阶段被放大。如上表5所示(第3行 vs 第4行),添加编辑指令对齐阶段对RL后的图像编辑至关重要。若无此阶段,UniGen-1.5通过RL在ImgEdit上仅提升0.21分(第1行 vs 第3行)。受益于该阶段带来的精细化语义对齐,RL实现了0.38分的更大增益(第2行 vs 第4行)。
结论
UniGen-1.5 ——一个在图像理解、生成与编辑任务中均取得竞争力的统一MLLM。基于UniGen框架,UniGen-1.5通过增强模型架构扩展至图像编辑支持,并通过设计的编辑指令对齐阶段进一步优化。本文还提出统一RL策略,通过共享奖励模型联合优化生成与编辑,在保真度与可控性上获得显著提升。大量实验表明,UniGen-1.5在图像理解、文本到图像生成和图像编辑的广泛基准测试中达到最先进水平,为推进统一MLLM的未来研究建立了强大可扩展的基线。
局限性。 首先,UniGen-1.5在渲染文本内容方面能力不足(图A首行)。本文的模型侧重于改进文本指令与离散视觉令牌间的语义对齐,且仅使用轻量级视觉解码头进行图像重建,这导致在生成文本(极度依赖保留细粒度结构细节)方面存在劣势。本文相信在框架中集成基于扩散的组件能有效解决此局限。其次,UniGen-1.5仍存在视觉不一致性问题(图A末行),这是图像编辑任务的关键挑战。需要在RL阶段采用专用奖励模型来强化视觉一致性。
参考文献
[1] UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论