如您有工作需要分享,欢迎联系:aigc_to_future
作者:Yi Wu等
解读:AI生成未来
论文链接:https://arxiv.org/pdf/2505.19874
项目链接:https://stylear.github.io/
代码链接:https://github.com/wuyi2020/StyleAR
亮点直击
提出了一种训练框架,使 AR 模型能够利用二元文本到图像数据执行风格对齐的文本到图像生成,避免了在指令微调过程中扩展文本-图像-图像三元组数据的困难。 提出了一种风格增强 tokens(style-enhanced tokens)技术,有效解决了风格对齐文本到图像生成任务中的内容泄露问题,并显著提升了提示词遵循性和风格一致性。 StyleAR 在提示词遵循性和风格一致性方面均达到了SOTA性能,超越了现有的基于扩散的方法。此外,StyleAR还能有效集成额外条件,如深度图和其他结构控制信息。
总结速览
解决的问题
当前多模态自回归(AR)模型虽在视觉生成中表现优异,但在风格对齐的文本到图像生成任务中仍面临挑战。 该任务需要构建"文本-图像-图像"三元组数据(包含提示词、参考风格图像和目标图像),但大规模获取这类具有特定风格的三元组数据十分困难。 现有方法在训练中容易出现内容泄露问题,影响生成图像的风格一致性和语义对齐。
提出的方案
提出一种新方法 StyleAR,通过结合特定的数据整理策略与自回归模型,利用二元文本-图像数据(而非三元组)实现风格对齐的图像生成。 使用参考风格图像和提示词合成风格化图像,仅将合成图像作为图像模态参与训练,从而规避三元组数据构建的困难。 将原始图像与风格化图像混合使用,增强模型的风格理解能力。
应用的技术
数据整理方法:利用扩散模型生成风格化图像,构建高质量的二元训练数据。 CLIP 图像编码器 + Perceiver 重采样器:将图像输入转化为风格 tokens (style tokens),与文本模态对齐。 风格增强tokens 技术(Style-Enhanced Tokens):解决内容泄露问题,提升风格一致性。 训练框架设计:使 AR 模型可以在无三元组数据的情况下完成风格对齐的文本到图像生成。
达到的效果
成功规避了依赖三元组数据的限制,降低了数据获取成本。 实验表明,StyleAR 在提示词遵循性和风格一致性方面均超过现有扩散方法,达到了当前最先进的性能。 能够有效集成额外条件控制信息(如深度图和结构约束),具备良好的扩展性和通用性。 大规模定量评估、定性实验与用户研究验证了该方法的有效性和先进性。
方法
预备知识
在 AR 模型的图像生成训练过程中,对于输入图像 ,它首先通过图像分词器被量化为 个离散 tokens ,其中 ,, 和 分别是图像分词器在垂直和水平方向的下采样比率, 是图像码本中的索引。
然后,这些图像 tokens 会被展平成长度为 的序列,并与文本tokens 连接后输入到基于 Transformer 的自回归模型中进行训练。
在推理阶段,给定文本 tokens ,自回归模型可以通过下一个tokens 预测来生成图像tokens :
最后,生成的图像tokens 通过图像解码器被转换为像素空间。
数据整理
本方法的主要贡献之一集中在数据整理部分。如果目标是创建用于指令跟随微调的三元组数据,虽然可以使用 InstantStyle来生成此类数据,但这些数据存在风格一致性低的问题,并且使得扩散模型的能力边界成为 AR 模型的上限。相比之下,在数据生成过程中舍弃了参考风格图像,仅使用提示词和生成的风格化图像来构建二元数据。通过这种方式,获得了高质量的风格化二元数据,并避免了低风格一致性的问题。
此外,通过实践实验发现,如果仅依赖此风格化数据集进行模型训练,模型在推理阶段捕捉图像特征的能力不尽如人意,这导致生成图像与参考风格图像之间的风格一致性仍然较低。此外,考虑到文本到图像生成任务在预训练阶段的模型特性,其训练集大多由未风格化的原始图像组成。如果我们只使用风格化数据集进行训练,领域差异会给模型训练过程带来困难。鉴于此,在训练我们的 StyleAR 时,我们同时使用原始图像数据集和风格化图像数据集,并以一定比例作为训练数据集。
StyleAR 框架
使用二元数据进行训练。 StyleAR 框架如下图 3 所示。为了实现二元数据训练,设计模型以自监督方式使用输入图像,提取风格特征并学习预测同一图像的图像tokens 。具体而言,输入图像 首先通过 CLIP 图像编码器 提取图像特征。图像特征被转换为风格tokens ,通过 Perceiver重采样模块 映射到 AR 模型的统一tokens 空间,其中 是风格tokens 的数量, 是 AR 模型统一tokens 空间的维度。
另外,为了缓解内容泄露问题,向风格 tokens 注入高斯噪声 ,以削弱无关的语义特征,并强制 AR 模型在图像生成过程中关注提示词中的语义信息。图像tokens 的生成过程被公式化为:,其中 , 是高斯噪声注入的强度。
风格增强推理。 结合了 SAM(Segment Anything Model),记作 ,与高斯噪声注入机制结合,形成风格增强tokens 技术,以进一步降低内容泄露风险并促进准确可靠的推理。具体而言,输入图像 及其分割图像 被输入到 CLIP图像编码器中,以获得相应的图像特征 和 。通过特征相减 来排除语义信息,结果通过 Perceiver 重采样模块映射到统一tokens 空间中。
此外,为了保留更多细粒度的风格特征,还在统一tokens 空间中引入了残差路径。风格增强tokens 可被公式化为:
其中 是残差路径的残差比例。该推理机制显著提升了风格化图像的质量,实现了高提示词遵循性和高风格一致性。
后训练。 最近的大量研究,如[22; 25; 29] 已经展示了后训练的潜力,主要通过强化学习来增强大语言模型(LLMs)的推理能力和人类偏好对齐。在图像生成领域,无论是扩散模型 [2; 8; 19] 还是 AR 模型 [40; 39],后训练常被用于提升生成图像的提示词对齐性和视觉质量 [47; 48; 37; 8]。本工作采用了 Direct Preference Optimization(DPO)算法,以提升风格对齐的文本到图像生成中的提示词对齐性。具体来说,通过排序数据构建实现标准 DPO 策略。对于每个提示词,使用 StyleAR 生成两张图像,并使用 VLM从中选择与提示词语义更一致的一张图像。基于评分结果,构造三元组 用于 DPO 训练。
实验
实验细节
模型与数据集细节。 StyleAR 是基于 Lumina-mGPT 的 FP-SFT@768 版本实现的。原始图像训练数据集来自开源数据集。对于风格化图像训练数据集,从开源数据集中收集了 80 种不同的艺术风格图像,并使用 InstantStyle为每种风格生成 200 张语义多样的图像,总共构建了 16,000 条风格化图像数据。在每个训练周期中,我们从原始图像数据集中随机采样 10%(49,368 张图像)并与完整的风格化图像数据集混合,构建训练数据集。训练配置使用了 batch size 为 64,学习率为 ,AR 模型中使用的 LoRA参数的秩设为4。
评估指标细节。 参考已有工作[10; 18; 30; 12],使用 CLIPT指标评估提示词遵循性,该指标是输入提示词的 CLIP 文本嵌入与对应生成图像的 CLIP 图像嵌入之间的余弦相似度。CLIP-I 和 DINO指标用于评估风格一致性,该指标是参考风格图像与对应生成图像的图像嵌入之间的余弦相似度。为了稳健地衡量方法的性能与泛化能力,我们收集了 10 张多样化的参考风格图像和 20 条多样化的提示词,涵盖人类活动、动物、建筑、交通工具、乐器和家具等类别。在评估套件中,我们为每种风格和每条提示词生成 4 张图像,共计 800 张图像。
对比实验
将所提出的基于 AR 的 StyleAR 与现有的基于扩散的方法进行了全面比较,包括 InstantStyle、IP-Adapter、StyleAligned、StyleCrafter和 StyleShot。除 StyleShot基于 Stable Diffusion 1.5实现外,其余方法均基于 Stable Diffusion XL 架构。所有对比实验均使用基线方法的官方开源实现,并严格按照其技术文档中的超参数设置进行。
定性比较。 定性对比如下图 4 所示。根据结果,InstantStyle展现出优越的提示词遵循性,在输入提示词与生成图像的语义对齐方面表现突出。然而,其在生成图像与参考风格图像之间的风格一致性较差。IP-Adapter经常在提示词遵循性方面出现失败,生成图像偏离输入提示词。如下图 4 第一行所示,给定提示词 "a train",模型错误地生成了一张飞机图像。该伪影源于内容泄露,即参考风格图像中的语义内容(如飞机)通过 IP-Adapter中解耦的交叉注意力层不适当地传播到图像生成过程中,覆盖了输入提示词的语义内容。StyleAligned 由于其共享注意力层在内容与风格特征之间无法稳定解耦的固有限制,导致生成结果不稳定且语义混乱。StyleCrafter 和 StyleShot在提示词遵循性方面表现良好,但在风格一致性方面存在明显不足。相比之下,StyleAR 表现出卓越的提示词遵循性,并准确捕捉了参考风格的整体与细节特征。
定量比较。 定量比较结果如下表 1 所示。StyleAR 在提示词遵循性与风格一致性之间实现了优越的平衡。一方面,StyleAR 在提示词遵循性方面取得了第二高的表现,略低于 InstantStyle,而 InstantStyle 的风格一致性较差。另一方面,StyleAR 在 CLIP-I 和 DINO 指标中排名第二,略低于 IP-Adapter。但 IP-Adapter的提示词遵循性较差,且存在严重的内容泄露问题(如上图 4 的定性结果所示),导致其 CLIP-I 和 DINO 指标异常升高。相比之下,我们的方法能够有效提取参考风格图像的风格特征,并在不发生内容泄露的前提下生成目标图像。
用户研究。 用户研究结果如下图 5 所示。在提示词遵循性和图像质量方面,本文方法与 InstantStyle 表现相当,且显著优于其他方法。此外,在风格一致性方面,本文方法远超所有其他方法。相比之下,InstantStyle方法的风格一致性表现较差。可见,我们的方法不仅严格遵循输入提示词生成高质量图像,还确保了生成图像与参考风格图像之间的高度风格一致性。
额外结果。 在冻结 AR 模型原始参数的前提下,StyleAR 仍可保留 AR 模型原有的生成能力,如结构控制。与 IP-Adapter和 InstantStyle等基于扩散的方法相比,StyleAR 方法在图像质量、条件保真度和风格一致性方面表现更优,如下图 6 所示。
消融实验
本节消融实验,以检验训练数据集的组成元素和设计模块对 StyleAR 结果的影响。
训练数据集的组成。 精心设计了不同组成的训练数据集以进行消融实验,从而探索训练数据集对 StyleAR 的影响。具体来说,所比较的训练数据集包括纯风格化图像数据,以及风格化图像数据与原始图像数据比例为 1:3、1:6 和 1:30 的组合。定性结果如下图 7 所示,定量结果如下表 2 所示。根据结果,当训练数据集中仅包含风格化图像数据时,提示词遵循性较好,但风格一致性较差。相比之下,当加入原始图像,特别是当风格化图像与原始图像的比例为 1:3 时,风格一致性显著提升,同时提示词遵循性也保持在良好水平。然而,当比例进一步增加至 1:6 和 1:30 时,出现了内容泄露现象,生成图像对参考风格图像产生"过拟合",生成图像中还出现了不相关的语义内容,导致其语义不再遵循输入提示词。因此,我们得出结论,在风格化任务中,除了风格化图像数据外,适当地加入一些原始图像数据可以提升风格一致性,并不会降低提示词遵循性。
风格增强 token 的影响。 为了评估我们提出的风格增强 token 技术的有效性,进行了定量和定性的消融实验,对比了使用风格增强 token 的 StyleAR 与不使用该技术的 StyleAR。结果如下图 8 以及上表 2 的第六列所示。根据结果,当不使用风格增强 token 时,参考风格图像中的不相关语义特征会出现在生成图像中,导致生成图像不符合输入提示词的语义控制,出现生成混乱的情况。相比之下,当采用风格增强机制时,提示词遵循性和图像质量均有提升,该机制使风格增强 token 能够辅助模型过滤参考风格图像中的无关语义信息,确保生成图像与输入提示词高度一致,并显著提升图像质量。
DPO 的影响。 为了评估 DPO 后训练在 StyleAR 中的有效性,进行了定量消融实验,对比使用 DPO 后训练的 StyleAR 与不使用该技术的 StyleAR。定量结果如上表 2 的第七列所示。DPO 后训练可以提升提示词遵循性,并略微增强 StyleAR 的风格一致性。
结论与局限性
StyleAR,首个使用图文二元数据驱动多模态自回归模型进行风格对齐文本到图像生成的工作,而该任务此前主要由基于扩散的方法主导。相比于以往自回归模型在指令微调中使用的三元组数据,使用图文二元数据进行训练,更易于扩展训练数据集的规模,从而提升模型性能。此外,消融实验验证了我们模块设计的有效性,包括风格化-原始图像混合训练策略以及风格增强 token 技术,它们共同提升了风格一致性与提示词遵循性。然而,当前的实现仍需通过深度图提取进行内容控制,而无法直接输入内容图像以实现风格迁移。未来的研究将聚焦于利用自回归模型的多模态输入能力,实现风格参考图像与内容特定视觉图像输入的同时集成,以进一步实现条件图像生成。
参考文献
[1] StyleAR: Customizing Multimodal Autoregressive Model for Style-Aligned Text-to-Image Generation
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论