👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Zhenglin Cheng等
论文链接:https://arxiv.org/pdf/2512.05150
项目链接:https://zhenglin-cheng.com/twinflow/
代码链接:https://github.com/inclusionAI/TwinFlow
模型链接:https://huggingface.co/inclusionAI/TwinFlow
亮点直击
简单而有效的一步生成框架。提出了一种一步生成框架,该框架不需要辅助训练模型(GAN 判别器)或冻结的教师模型(不同的/一致性蒸馏),从而消除了 GPU 内存成本,允许在大模型上进行更灵活和可扩展的训练。 基于任意步框架,TWINFLOW 仅使用 1-NFE 就实现了强大的文本到图像性能,GenEval 分数达到 0.83。 将 1/2-NFE 生成能力引入到 Qwen-Image-20B。在 1-NFE 时实现了 0.86 的 GenEval 分数和 86.52 的 DPG 分数;在 2-NFE 时实现了 0.87 的 GenEval 和 87.64 的 DPG 分数,具有高度竞争力。
总结速览
解决的问题
推理效率低下:主流多模态生成模型(扩散、流匹配、一致性模型)依赖多步采样(40–100 NFE),导致高延迟与高计算成本,难以满足实际部署需求; 现有少步方法存在显著缺陷: 蒸馏类方法(如渐进式/一致性蒸馏)在极低步数(<4 NFE)时生成质量严重下降; 对抗训练类方法(如DMD、SANA-Sprint)引入判别器或冻结教师模型,导致训练不稳定、架构复杂、GPU内存开销大,难以扩展至大模型; 缺乏简洁、稳定、可扩展的一步生成框架,尤其在20B级大模型上尚未实现1-NFE下的高质量生成。
提出的方案
提出 TWINFLOW——一种无需教师模型、无需对抗网络的一步生成训练框架,核心创新为:
双轨迹(Twin Trajectory)设计:将时间维度扩展至 ,构建两条对称路径: 正分支():噪声 → 真实数据; 负分支():相同噪声 → "伪"数据; 自监督速度场对齐目标:直接最小化两条轨迹的速度场差异,迫使模型学习更鲁棒、直接的噪声→数据映射; 端到端训练范式:全程无需冻结教师模型、无需判别器等辅助模块,支持全参数训练。
应用的技术
流匹配(Flow Matching)理论扩展:将标准 时间流拓展为对称 双流空间; 速度场一致性约束:通过最小化正负轨迹间速度场的 距离实现自监督优化; 大模型高效适配:应用于 Qwen-Image-20B(200亿参数多模态生成模型),实现全参数微调与一步生成转换; 评估体系:采用 GenEval(综合生成质量)、DPG-Bench(图像保真度与多样性)等权威基准验证效果。
达到的效果
推理效率飞跃: 仅需 1-NFE 即可生成高质量图像,计算成本降低100倍(相比原100-NFE模型); 生成质量领先: 1-NFE:GenEval 0.86,DPG 86.52; 2-NFE:GenEval 0.87,DPG 87.64; → 逼近原100-NFE模型性能(GenEval 0.87,DPG 88.32),质量损失极小; 在文本到图像任务中,1-NFE下 GenEval = 0.83,显著优于 SANA-Sprint(0.72)与 RCGM(0.80);
工程优势显著: 训练稳定、架构简洁、内存开销低; 首次验证了20B级多模态大模型可高效实现一步生成,具备强可扩展性与工业落地潜力。
方法
当前任意步框架中的少数步骤方法在不依赖 GAN 损失的情况下难以实现高质量的一步生成,而 GAN 损失会显著增加复杂性。为了解决这个问题,本文提出了 TWINFLOW,一种简单且自包含的方法,可以在任意步流匹配框架内直接增强一步性能。本文的核心思想是引入双轨迹,它创建了一个内部自对抗信号,从而消除了训练过程中对外部 GAN 损失的需求。该方法通过最小化"假"和"真实"速度场之间的差异来实现,理想情况下该差异应为零。本文最后演示了如何将 TWINFLOW 集成到更广泛的任意步框架中,并提供了实际设计。
用于自对抗训练的双轨迹
本文方法的一个关键创新是引入了双轨迹,其时间步长以 对称(参见下图 2a)。这种结构创建了一个自包含、无判别器的对抗目标,旨在直接增强一步生成性能。
创建自对抗目标。 标准学习过程在时间间隔 上操作:真实数据 被 扰动,其中 , 。为了创建本文的自对抗目标(以及双轨迹),本文将此时间间隔从 扩展到 。此间隔的负半部分,,指定用于学习从噪声到模型自身生成的"假"数据的生成路径。
具体来说,本文任务网络学习到其自身输出的生成路径。本文采用模型生成的假样本 ,即 ,并构建相应的"假轨迹",其中其扰动版本定义为 ,,。这里 是不同的噪声,不需要与 相同。然后,网络在此轨迹上使用负时间输入 进行以下流匹配目标训练:
其中 是一个度量函数。最小化此损失教会网络学习负时间条件和从噪声到假数据分布的变换,为下一节中描述的校正损失奠定了基础。
通过速度匹配校正真实轨迹
理想情况下,本文希望双轨迹相互匹配。如前文所述,分布 和 分别对应由负时间和正时间间隔参数化的轨迹。受 DMD的启发,本文可以将其视为一个分布匹配问题。对于任何扰动样本 ,本文旨在最小化这两个分布之间的 KL 散度:
速度匹配作为分布匹配。 对公式 (3) 求梯度,本文得到:
其中 是各自分布的分数。在线性传输下(),分数与速度场 的关系由下式给出:
将公式 (5) 中的此关系代入 KL 梯度 (4) 得到:
其中模型对于假轨迹以 为条件,对于真实轨迹以 为条件。为简化起见,本文将此速度差(参见上图 2a)表示为:
此推导将原始的分布匹配问题重铸为一个更实用的速度匹配问题。本文现在展示如何将其表述为下面可处理的校正损失。
校正损失推导。 为了推导校正损失,本文首先使用第 3.1 节中的设置实例化梯度 (6)。在此设置中,网络的预测 作为干净的示例,因此,(6) 中的扰动变量 对应于假样本 。因此,(7) 中定义的速度差 被实例化为 。
在此设置下,(6) 中的雅可比项实例化为 并简化为:
因此,(6) 中的 KL 梯度采用内积 的形式。为了构建产生这种梯度结构的可处理损失,本文采用停止梯度算子 sg()。这激发了以下校正损失:
其中 是一个度量函数。最小化 鼓励模型校直从噪声到数据分布的生成轨迹。这种校正允许通过大步长精确近似整个积分过程,从而实现少步或 1 步生成。
TWINFLOW 目标与实际设计
与任意步框架的整合。 本文方法 TWINFLOW 训练一个单一模型,使其在多步和少步生成方面都表现出色。这是通过结合两个具有冲突需求的互补目标实现的:
自对抗损失 ( 在公式 (2) 中) 通过将训练动态扩展到区间 来促进高保真度、多步生成。 校正损失 ( 在公式 (9) 中) 通过直接校直从噪声到数据的轨迹来优化少步效率,从而实现快速、高质量的合成。 这创建了一个双重目标:模型必须既是一个精确的多步采样器,又是一个高效的少步生成器。这导致了第 2 节中介绍的任意步框架的应用,该框架统一了 (2) 和 (9) 的要求。本文采用 (1) 的 公式来增强训练稳定性。本文的最终损失结合了基本目标和本文提出的项,本文将其统称为 。本文方法中的整体损失函数可以表示为:
混合损失的实际实现。 中的 和 目标在任意步公式下对目标时间 提出了不同的要求。具体来说, 要求 从 采样,而 需要固定的目标时间 。为了在单个训练步骤中同时满足这两个要求,本文将每个 mini-batch 分成两个子集。平衡超参数 控制这些子集的相对大小。一部分批次用于计算 时的 ,而其余部分用于计算随机采样 时的 。因此, 的值平衡了两个损失对梯度更新的影响。设置 禁用 项,而较大的值会增加其贡献。关于 影响的消融研究可在下图 4a 中找到。
实验
本文通过两个方面证明了本文方法 TWINFLOW 的有效性。首先,本文强调其多功能性和可扩展性,将 TWINFLOW 应用于统一的多模态模型,例如 Qwen-Image-20B,如下表 2 所示。其次,本文将其与最先进 (SOTA) 的专用文本到图像模型进行基准测试,结果如下表 4 所示。
实验设置
本节详细介绍了本文提出的方法的实验设置和评估协议。
多模态生成模型上的图像生成。 本文对统一的多模态模型(即同时将文本和图像作为条件并能够生成文本和图像)进行评估。(1) 网络架构:本文在 Qwen-Image 上进行了 LoRA(上表 2)和全参数训练(下表 3)的 TWINFLOW。本文还在 OpenUni-512上进行了全参数训练实验。(2) 基准:遵循近期工作,本文在文本到图像生成任务中使用了基准。对于文本到图像生成,本文使用了 GenEval、DPG-Bench和 WISE。 文本到图像生成。 对于文本到图像生成,本文在专用文本到图像模型(即主要以文本作为条件并仅生成图像)上进行评估。(1) 网络架构:本文在实验中使用了 SANA-0.6B/1.6B。(2) 基准:遵循 SANA 系列,本文使用了GenEval和 DPG-Bench作为评估指标。
多模态生成模型上的图像生成
本文通过在 20B 参数的 Qwen-Image 系列上实现具有竞争力的 1-NFE 文本到图像生成,展示了 TWINFLOW 的可扩展性。这一突破解决了该领域的一个关键空白,因为以前的少步方法由于 GAN 损失在规模上的不稳定性,很少应用于超过 3B 参数的模型。
本文方法比最先进的统一多模态生成模型具有两个关键优势: (a) TWINFLOW 在 Qwen-Image-20B 上以 1-NFE 保持 >0.86 的 GenEval 分数:超越了大多数多步模型(40-100 NFEs),例如 Bagel、MetaQuery。 (b) TWINFLOW 在没有任何辅助组件或架构修改的情况下实现了这一点,这与需要蒸馏或专门训练管道的竞争性少步方法不同。
本文评估了 Qwen-Image-TWINFLOW 在几个标准基准测试上的文本到图像生成能力:GenEval、DPG-Bench和 WISE。本文模型在所有基准测试中仅用 1-NFE 就表现出强大的性能,取得了既有竞争力又高效的结果。
在文本到图像基准上进行评估。 如上表 2 所示,Qwen-Image-TWINFLOW 在 GenEval 上取得了 0.86 分,在 DPG-Bench 上取得了 86.52% 的分数,仅用 1-NFE 就与原始模型在 100-NFE 下的性能非常接近。与 Qwen-Image-Lightning (一个 4 步蒸馏模型)相比,本文模型在 GenEval 和 WISE 上仅用 1-NFE 就超越了它。此外,本文模型在 1-NFE 和 2-NFE 设置下,在 GenEval 和 DPG-Bench 上都优于 Qwen-Image-RCGM ,在 1-NFE 设置下,GenEval 显著提高了 0.34,DPG-Bench 提高了 27.0%,WISE 提高了 0.25。
本文还将 Qwen-Image-TWINFLOW 与其他著名的多步统一多模态生成模型进行了基准测试,例如 MetaQuery-XL、BLIP3-o-8B和 Bagel。本文模型在所有评估指标上,以 1 或 2-NFE 始终超越这些基线。除了 Qwen-Image,本文还将 TWINFLOW 应用于 OpenUni,在 1-NFE 设置下取得了 0.80 的 GenEval 分数和 76.40 的 DPG-Bench 分数,这也接近其原始性能。这些发现强调了 TWINFLOW 在不同架构和规模上的多功能性和有效性。
对 Qwen-Image 进行 20B 全参数训练的进一步探索。 上表 3 展示了 TWINFLOW 在大规模 Qwen-Image-20B 上进行全参数训练的扩展性和性能优势。现有的分布匹配方法,如 VSD、DMD 和 SiD,通常需要维护三个独立的模型副本(生成器、真实分数和假分数),导致显著的内存开销。相比之下,TWINFLOW 通过统一设计脱颖而出: (a) 简单性和效率: 通过将生成器、真实/假分数估计集成到一个模型中,TWINFLOW 消除了对冗余参数的需求。这允许在 20B 规模下进行全参数训练。 (b) 性能优越性: 凭借这种统一设计,TWINFLOW 在 Qwen-Image-20B 上超越了所有基线。值得注意的是,与 8 NFE 下运行的 sCM和 MeanFlow相比,它仅用 1-2 NFE 就实现了卓越的生成质量。
如下图 3 所示,是 Qwen-Image 和 Qwem-Image-TWINFLOW 在不同 NFE 下生成的图像的可视化结果。Qwen-Image-TWINFLOW 能够以 1 NFE 生成高质量图像,其性能优于原始 Qwen-Image 在 16 NFE 下的表现。此外,将 2 NFE 的结果与 Qwen-Image 的 32 NFE 输出进行比较时,本文方法在视觉细节方面表现出更好的效果。
关于开源社区工作的讨论。 据本文所知,Qwen-Image-Lightning是唯一一款在大模型上的开源少步模型。它是使用 DMD2开发的,但去除了 GAN 损失。这也间接反映了使用 GAN 损失的高成本。然而,本文观察到 Qwen-Image-Lightning 存在严重的模式崩溃:当给定相同的提示但不同的噪声输入时,生成的图像在多次运行中几乎保持一致。
图像编辑的探索。 由于资源限制,本文对 TWINFLOW 在图像编辑方面的能力进行了初步探索,使用了大约 15K 编辑对的小型微调数据集。尽管规模有限,本文的结果(参见下表 8)表明 TWINFLOW 可以将 Qwen-Image-Edit转换为一个 4-NFE 编辑模型。这表明,如果能够访问更多样化的编辑数据集,本文预计在编辑输出的保真度和多功能性方面都会有实质性的进一步改进。
专用文本到图像模型上的图像生成
为了验证本文方法的多功能性,本文还在传统的文本到图像生成任务上进行了基准测试。如上表 4 所示,本文首先与预训练的多步模型(通常需要 >40-NFE)进行了基准测试。根据下表 1 中的分类,本文将与最先进的少步模型进行比较,根据它们对辅助组件的依赖性进行分组:使用辅助模型训练的和不使用辅助模型训练的。重要的是,SANA-0.6B/1.6B 骨干网上的全参数微调能够在仅 1-2 NFE 内实现高保真图像生成。
(a) 1-NFE 设置: 本文方法的效力在要求更高的 1-NFE 推理设置中尤为突出。在这里,本文的模型(0.6B:0.83,1.6B:0.81 在 GenEval 上)显著优于其他领先的 1-NFE 方法,例如 SANA-RCGM (0.78)、SANA-Sprint (0.76) 、FLUX-Schnell (0.69) 和 SDXL-DMD2 (0.59)。值得注意的是,本文的 1-NFE TWINFLOW-0.6B (GenEval:0.83) 超过了 40-NFE SANA-1.5-4.8B模型的生成质量,同时提供了显著更高的计算效率。 (b) 2-NFE 设置: 在 2-NFE 配置中,TWINFLOW-0.6B 实现了 6.50 样本/秒的吞吐量和 0.26 秒的延迟,性能指标与最初报告的 SANA 值相当。在 GenEval 基准测试中,本文模型获得了 0.84 分,不仅超越了 SANA-Sprint 系列(0.76 和 0.77),而且还超越了强大的多步模型,如 SANA-1.5 (0.81) 和 Playground v3 (0.76)。本文模型在 DPG-Bench 上也表现出有竞争力的性能,0.6B 变体和 1.6B 变体分别获得了 79.7 和 79.6 的分数。
本文的 TWINFLOW-0.6B/1.6B 在 GenEval 基准测试上仅使用 1-NFE 就实现了最先进的文本到图像生成性能,超越了 SANA-Sprint 和 RCGM。虽然本文在 DPG-Bench 上的性能略低于 SANA-Sprint,但这是因为 SANA-Sprint 依赖于广泛的专有训练数据。本文认为这一差距主要是数据驱动的,可以通过在更大、更高质量的数据集上进行训练来有效弥补。
消融研究与分析
的影响。 如前文所述, 旨在控制 和 的样本分布。如上图 4a 所示,本文可视化了 1-NFE 和 2-NFE 下 DPG-Bench 性能随 的变化。本文观察到,随着 从 0 增加,DPG-Bench 的性能最初增加,然后下降,在大约 时达到峰值。这些结果表明,在局部批次中适当平衡样本有助于提高模型性能。
对不同模型的影响。 本文进行了一项消融研究,以分析在不同模型上使用 对文本到图像性能的影响。如上图 4b 所示,引入 显著提高了性能:它改善了 OpenUni、SANA,尤其是 Qwen-Image(从 59.50 到 86.52)在文本到图像任务上的 1-NFE 性能。
训练步数与 NFE 的关系。 如上图 4c 所示,实验结果表明,随着训练步数的增加,最佳采样步数的"舒适区"也相应地发生变化。值得注意的是,在 1 步和少步采样场景中都观察到了 GenEval 性能的改进,并且随着训练的进行,取得了显著的收益,这表明了 的有效性。
结论与局限性
TWINFLOW,一个用于训练大型少步连续生成模型的简单而有效的框架。与 DMD 系列等其他少步方法相比,本文方法因其高度的简单性而脱颖而出,因为它消除了对 GAN 判别器或冻结教师模型等辅助训练组件的需求。这种设计允许对大模型进行直接的 1 步或少步训练,使其特别易于访问和高效。通过在不同规模和任务上进行的大量实验,本文证明了 TWINFLOW 在大模型上的文本到图像合成中提供了高质量的生成能力。尽管取得了这些有希望的结果,但仍有几个局限性需要解决。首先,TWINFLOW 对图像编辑等更多样化任务的可扩展性尚未得到有效探索。其次,其对视频和音频生成等更多样化模态的适应性需要进一步验证。解决这些挑战可以显著提高 TWINFLOW 在更广泛上下文中的适用性和性能,为更健壮和多功能的生成模型铺平道路。
参考文献
[1] TWINFLOW: REALIZING ONE-STEP GENERATION ON LARGE MODELS WITH SELF-ADVERSARIAL FLOWS
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论