👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Huijie Liu等
论文链接: https://arxiv.org/abs/2511.10555
亮点直击
引入新任务:首次提出并定义了"代码到风格"的图像生成任务。该任务旨在仅通过一个简单的数值代码,就能生成具有多样化且风格一致的视觉作品,极大地简化了风格创作和复现的流程。 提出首个开源框架CoTyle:为了实现"代码到风格"的生成,设计并开源了名为 CoTyle 的框架。该框架通过学习一个离散的风格码本和一个自回归风格生成器,成功地将数值代码映射为独特的视觉风格。 验证代码作为风格控制器的有效性:通过大量的实验证明,CoTyle 框架是高效的。实验结果表明,一个简单的数值代码足以充当一个强大而紧凑的风格控制器,能够解锁广阔且可复现的新颖风格空间,证实了"一个风格等同一个代码"的核心思想。
总结概览
解决的问题
当前的风格化图像生成方法主要依赖三种输入:复杂的文本提示、具体的参考图像或参数高效微调(如LoRA)。这些方法存在显著的局限性:
一致性差:仅使用文本提示难以保证在多次生成中保持风格的统一。 创造力有限:依赖参考图像或LoRA的方法,其风格被现有的图像或训练数据所限制,无法创造出世界上尚未存在的全新风格。 迁移性与便携性差:分享一种风格需要发送整个参考图像或复杂的LoRA模型权重,这既不方便也增加了使用门槛。
为了解决这些问题,本文提出的"代码到风格"范式,旨在通过一个简洁、易于分享的数值代码,实现新颖风格的创造和稳定复现。
提出的方案
本文提出了一个名为 CoTyle 的三阶段框架来实现"代码到风格"的生成:
训练离散风格码本:首先,利用成对的风格图像训练一个离散的风格码本。其核心目标是学习一个映射,将内容不同但风格相同的图像编码到相似的离散风格嵌入(embedding)分布中,同时忽略与风格无关的内容信息。 训练风格条件化的图像生成模型:将训练好的风格码本集成到一个预训练的文本到图像扩散模型(T2I-DM)中。通过将码本输出的风格嵌入作为条件,训练扩散模型使其能够根据给定的风格嵌入生成相应的风格化图像。 训练自回归风格生成器:为了创造新颖的风格,本文训练了一个自回归模型。该模型学习从风格码本中提取的离散索引序列的分布。在推理阶段,用户提供的一个数值代码被用作随机种子,来初始化自回归模型生成一个全新的风格索引序列。这个序列随后被送入风格条件化的扩散模型,从而生成由该代码定义的、新颖且一致的风格图像。
应用的技术
CoTyle 框架综合运用了多种前沿的深度学习技术:
离散风格码本 (Discrete Style Codebook) :借鉴了向量量化(Vector Quantization)的思想,将连续的风格特征空间离散化,这不仅有助于模型专注于风格信息的提取,也天然地契合了自回归模型的序列预测任务。 对比损失 (Contrastive Loss) :在训练风格码本时,通过对比损失函数来拉近同种风格图像的嵌入距离,推远不同风格图像的嵌入距离,从而学习到对风格敏感的表征。 扩散模型 (Diffusion Model) :采用了先进的 Diffusion Transformer (DiT) 作为图像生成的主干网络,保证了生成图像的高质量和高保真度。 自回归模型 (Autoregressive Model) :采用了一个类似大型语言模型的自回归Transformer(具体为Qwen2-0.5B架构)来学习和生成风格索引序列,从而实现从一个随机种子(即数值代码)到完整风格的创造。 视觉语言模型 (Vision Language Model, VLM) :本文创新地将风格嵌入视为一种特殊的"文本"输入,通过VLM的文本编码器注入到扩散模型中。这种方式使得模型能更好地理解和对齐人类感知的风格信息。
达到的效果
CoTyle 在实验中取得了令人瞩目的成果:
高风格一致性:在"代码到风格"任务中,CoTyle 生成的图像在风格一致性上显著优于商业闭源模型 Midjourney。 强大的图像条件生成能力:尽管设计初衷是代码生成,CoTyle 在传统的图像条件风格生成任务上也表现出色,其风格一致性指标达到了业界领先水平。 新颖风格创造与插值:该框架不仅能生成前所未有的新风格,还支持风格插值。通过按比例混合不同风格的索引序列,可以实现两种或多种风格之间的平滑过渡。 验证了关键设计的有效性:消融实验证明,通过文本分支注入风格、在码本训练中使用对比损失和重构损失,以及对高频索引进行抑制的采样策略,都是提升模型性能的关键。
方法
CoTyle,这是首个用于实现代码到风格生成的开源方法,其流程如图3所示。CoTyle 包含三个主要部分。首先使用成对的风格图像来训练一个离散的风格码本。该码本能够从参考图像中提取离散的风格嵌入。利用这些风格嵌入,训练了一个T2I-DM,使其能够生成与参考图像风格相同的图像。最后,训练一个自回归风格生成器来生成风格索引,从而解锁了从种子(seed)到风格的生成能力。
风格码本
核心思想是设计一个自回归风格生成器,它能产生风格索引来指导T2I-DM生成具有特定风格的图像。为实现这个生成器,首先训练一个离散的风格码本,使其充当风格提取器。使用离散码本主要有两个优势:(1)离散的索引与自回归建模的下一词元预测(next-token prediction)目标天然对齐;(2)量化过程能够内在地抑制不相关的内容信息,这有助于更有效地从图像中汇集风格特征。
然而,与用于图像重建的传统码本不同,风格码本的设计目标不是用离散嵌入高保真地重建原始图像。相反,它的目的是将具有相同风格但内容不同的图像编码到相同的分布中,同时将风格迥异的图像编码到不同的分布中。因此,我们采用对比损失来训练模型。如果没有对比损失,模型将只会学会把多样的风格映射到一个相同的嵌入上。该码本使用从视觉Transformer(ViT)提取的特征进行训练,损失函数可以公式化为:
其中 是批量大小, 是第 个样本对的标签(1代表风格相同,0代表风格不同), 是一个边距参数,定义了负样本对之间期望的最小间隔, 和 是第 对样本中两个样本的ViT特征, 表示风格码本。
此外,我们发现在训练中加入一个重构损失对于避免码本坍塌至关重要(第5节)。这是因为我们需要利用预训练的视觉语言模型(VLM)的能力(第4.2节),我们的风格嵌入应保持与VLM图像编码器输出的图像嵌入相近。
与传统的向量量化方法,如 [7, 22, 41] 类似,采用了提交损失(commit loss)和码本损失(codebook loss)。向量量化损失 定义为它们的总和。最终的总体损失函数公式化为:
其中 和 是加权系数。
基于风格码本进行条件化的T2I-DM
为了利用风格码本量化后的嵌入作为风格条件,将码本集成到一个T2I-DM中,如图3(a)所示。与传统的风格迁移方法,如 [10, 26, 45, 49] 不同,我们认为风格信息不应狭隘地定义为颜色,而应包含丰富的语义特征。因此,将风格嵌入视为一种文本输入形式,并通过文本分支将其注入到Diffusion Transformer (DiT) 中。具体来说,采用一个视觉语言模型(VLM)作为我们的文本编码器,同时用风格嵌入取代原始的图像特征。这种方法可以帮助T2I-DM学习到更符合人类感知的风格信息。
在训练过程中,对于每一对共享相同风格的图像 和 ,从 中提取ViT特征 并将其量化为风格嵌入 。训练T2I-DM,以风格嵌入 和文本提示 (对应于 )为条件,通过修正流匹配(rectified flow matching)来生成目标图像 。训练后,DiT能够根据码本输出的风格嵌入生成具有特定风格的图像。值得注意的是,虽然CoTyle是为代码到风格生成而设计的,但它天然地支持图像条件生成,并且性能优于现有方法(第5节)。
代码到风格的图像生成
现在我们构建了一个基于风格码本嵌入进行条件化的T2I-DM。然而,这些嵌入来源于现有的图像,从而限制了新颖风格的创造。为了实现代码到风格的生成,我们需要训练一个无条件的风格生成器来创造新颖的风格。
如图3(b)所示,对于一张给定的图像,提取其ViT特征 ,并从风格码本中获取对应的离散索引。然后,这些索引被用来通过下一词元预测的方式训练一个自回归模型,从而有效地学习风格特征的分布。
图3展示了推理过程。用户提供的数值代码用于初始化随机种子。利用这个固定的种子,模型采样一个初始词元 ,并自回归地生成后续的 个词元,其中 是定义总词元序列长度的超参数。利用这些索引,我们从码本中检索相应的向量,并将它们解码为风格嵌入。随后,我们以类似于第4.2节描述的方式生成具有特定风格的图像。推理过程的伪代码在算法1中呈现。
为了进一步增强风格的强度和多样性,我们提出了一种采样策略。我们分析了码本索引在一系列图像中的使用频率,发现某些索引的选择频率显著高于其他索引(详见附录)。实验结果(图6)表明,高频索引代表了一种"任意"的风格信息,就像无意义的占位符一样。仅从高频索引中采样会产生没有特定风格的图像。因此,在推理过程中,我们通过乘以一个抑制系数来降低这些索引对应的logits权重。抑制系数可以公式化为:
其中 是索引, 表示将索引映射到其频率值的函数。 是一个阈值, 是一个超参数。
实验
本工作的实验部分旨在全面评估 CoTyle 框架的性能,并验证其核心设计的有效性。
实验设置与基准
实现细节:模型在多个阶段进行训练。风格码本的词汇量大小为1024。DiT生成模型基于一个预训练的T2I-DM进行微调。风格生成器则从零开始训练,采用了 Qwen2-0.5B 的架构。 评估基准:为了进行公平的比较,本文构建了专门的测试集。对于代码到风格任务,随机采样了500个代码,每个代码生成4张图。对于图像条件生成,构建了500个"提示-图像"对。 评估指标:主要使用CSD分数来评估风格的一致性(Consistency)和多样性(Diversity)。同时,使用CLIP-T相似度评估文本-图像对齐度,并采用QualityCLIP评估生成图像的美学质量。
对比实验结果
代码到风格生成:将 CoTyle 与该领域的唯一同类方法(闭源的Midjourney)进行比较。如表1和图4所示,CoTyle 在风格一致性上取得了0.6007的分数,显著高于Midjourney的0.4734,证明了其在根据同一代码稳定复现风格方面的优势。在风格多样性和美学质量方面也表现出竞争力。 图像条件生成:CoTyle 也被证明在传统的图像条件风格生成任务中表现出色。与StyleStudio、CSGO、USO等多个主流开源方法相比,CoTyle在风格一致性上达到了0.5791,是所有对比方法中的最高分,同时在美学质量和文本对齐度上也保持了先进水平。
消融实验为了验证 CoTyle 框架中关键设计的有效性,本文进行了一系列消融研究:
风格注入方式:实验对比了通过文本分支(本文方法)和视觉分支注入风格信息的效果。结果(表2)表明,通过文本分支注入能在保持更高风格一致性的同时,更好地保留图像的语义信息。 风格损失函数:验证了在训练风格码本时,对比损失(contrastive loss)和重构损失(reconstruction loss)的必要性。结果(表3)显示,缺少任何一个部分都会导致风格一致性的显著下降。 高频索引抑制策略:实验证明,如果不采用高频索引抑制策略,模型生成的多样性会大幅降低(从0.7764降至0.7488),因为模型倾向于生成缺乏明确风格的"普通"图像。这验证了该策略对于解锁多样化风格至关重要。
风格插值实验还展示了CoTyle一个有趣的应用:风格插值。如图7所示,通过线性组合来自两种不同风格的索引序列,模型可以生成在两种风格之间平滑过渡的图像,这揭示了其学习到的风格表征具有良好的组合性。
总结
在本文中,引入了"代码到风格"图像生成这一新颖的范式,它通过数值风格代码实现了对多样化视觉风格的可控生成。提出了CoTyle,这是首个支持代码到风格生成的开源框架。CoTyle采用了一个专门的风格生成器,该生成器经训练能从数值风格代码中产生新颖且具有语义意义的风格表征。然后,一个训练好的扩散模型以该风格表征为条件,生成具有特定风格的图像。此外,将CoTyle的功能扩展到支持其他应用,包括图像条件的风格生成和风格插值融合。大量的实验证明,CoTyle能够有效地将离散的代码映射到多样化的视觉风格。
参考文献
[1] A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论