AI I024: 仅用1张图1小时，比肩FLUX。1和Qwen，推理狂飙5倍！Glance用“快慢哲学”颠覆扩散模型！

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Zhuobai Dong等

解读：AI生成未来

论文链接: https://arxiv.org/abs/2512.02899
项目/代码链接: https://zhuobaidong.github.io/Glance/

亮点直击
极致高效的训练：仅需 1 个样本，在 单张 V100 GPU 上不到 1 小时 即可完成训练。这与需要数千GPU小时（如 DMD2 需要 3840 小时）的传统方法形成鲜明对比。
非均匀加速策略：提出了"慢-快"（Slow-Fast）的分阶段加速策略，针对扩散模型的语义生成阶段和细节优化阶段采用不同的加速比，比均匀加速更符合模型特性。
即插即用：无需重新训练庞大的学生网络，而是通过两个轻量级的 LoRA适配器挂载在冻结的基础模型上实现加速，且具有极强的泛化能力。

图1. 数据使用量与训练时长对比。Glance仅需1个训练样本并在1个GPU小时内即可实现相当的生成质量，展现出极致的数据与计算效率。请注意横轴采用对数刻度，因此零值无法在图中直接表示。

解决的问题

推理成本高：扩散模型生成高质量图像通常需要大量的推理步骤（如 50 步），导致计算成本高昂，限制了应用。
蒸馏成本高昂且难微调：现有的少步数蒸馏方法（如 LCM, DMD2 等）需要昂贵的重新训练成本和大规模数据集。此外，直接微调蒸馏后的模型往往会导致生成结果模糊。
泛化性与效率的平衡：如何在极少数据（甚至单样本）和极低算力下，实现不损失质量的推理加速。

图2：蒸馏与加速策略对比。现有蒸馏流程依赖大规模训练集和高成本重复训练，而Glance仅需单一样本即可获得慢速与快速双适配器，为基础生成模型提供即插即用的加速方案。

提出的方案

Glance 框架：基于扩散过程包含"早期语义阶段"和"晚期冗余阶段"的观察，设计了分阶段的加速方案。
Slow-Fast LoRA 专家：

Slow-LoRA：在早期阶段以较低的倍率加速（保留更多步骤），确保全局结构的准确构建。
Fast-LoRA：在晚期阶段以较高的倍率加速（大幅跳步），快速完成纹理细化。

流匹配监督：利用流匹配（Flow Matching）目标函数，使 LoRA 适配器直接学习加速后的去噪轨迹速度场。

图3：慢-快范式可视化示意图。在慢速阶段，我们从前20个时间步中每两步采样一次（共获得5个样本）；在快速阶段，则从剩余40个步中均匀采样额外5个时间步。推理过程中，慢速阶段的时间步将优先于快速阶段执行。

应用的技术

LoRA (Low-Rank Adaptation) ：利用低秩矩阵微调技术，避免全参数训练，极大降低显存和计算需求。
Flow Matching (流匹配) ：直接回归目标速度场，相比于分数匹配（Score Matching），在少样本下能更高效地提取结构知识。
Phase-Aware Strategy (阶段感知策略) ：基于信噪比或时间步将去噪过程划分为不同区域，分别训练专门的专家模型。

达到的效果

加速比：在 FLUX.1-12B 和 Qwen-Image-20B 模型上实现了 5 倍加速（8-10 步推理）。
质量保持：在 OneIG-Bench、HPSv2 和 GenEval 等基准测试中，性能分别达到教师模型的 92.60%、99.67% 和 96.71%，在视觉质量上几乎无损。
泛化能力：尽管仅用 1 张图片训练，模型在未见过的提示词和复杂场景（如文字渲染、不同风格）上仍表现出惊人的泛化能力。

方法

Glance，这是一个阶段感知（phase-aware）的加速框架，旨在通过"慢-快"（slow-fast）范式同时提高扩散模型的效率和适应性。首先一起回顾下扩散模型和流匹配（flow-matching）的公式作为预备知识，然后描述本文提出的阶段感知 LoRA 专家及其学习目标。

预备知识

扩散与流匹配 (Diffusion and Flow Matching)扩散模型通过逐步将噪声转化为数据，学习通过参数化的去噪过程来拟合数据分布。流匹配公式将扩散解释为学习一个连续的速度场，该场将样本从高斯噪声传输到清洁数据。在时间步时，中间状态定义为，模型在给定条件（例如文本嵌入）的情况下预测传输速度。目标是预测速度与目标速度之间的均方误差：

其中是真实速度（groundtruth velocity）。为了获得卓越的性能，扩散模型通常设计有大量的网络参数，并在大规模网络数据上进行预训练。显而易见，为了减少步数而蒸馏如此巨大的模型在计算上是非常昂贵的。

低秩适应 (Low-Rank Adaptation)为了缓解上述困难，LoRA最近被应用于目标数据上的扩散模型快速蒸馏。具体而言，LoRA 引入了一个额外矩阵的低秩分解，，其中表示冻结的预训练参数，而低秩矩阵和（其中）构成了可学习的 LoRA 参数。

用于分阶段去噪的阶段感知 LoRA 专家

为了加速预训练扩散模型的去噪过程，同时保持生成质量，本文保留了预训练参数，并引入了一种紧凑但有效的增强方案：一组阶段特定的 LoRA 适配器（phase-specific LoRA adapters）。每个适配器专门负责去噪轨迹中的特定阶段，使模型能够在推理过程中根据不同的噪声水平和语义复杂性进行动态调整。

超越均匀时间步划分 (Beyond uniform timestep partitioning)先前的工作，如 Timestep Master，已经展示了使用在不同时间步间隔上训练的多个 LoRA 适配器的潜力。然而，均匀划分假设所有时间步的贡献是相等的，这与扩散动力学内在的非均匀性相矛盾。实证分析以及先前的研究揭示了不同的时间步表现出明显不同的语义重要性水平：在早期的、高噪声机制中，模型主要重建粗糙的全局结构和高级语义（低频信息）；相比之下，后期的、低噪声机制则专注于细化纹理和细节（高频信息）。

基于 SNR 的阶段感知划分 (Phase-aware partitioning via SNR)为了更好地将专家专业化与扩散过程的内在动力学对齐，我们引入了一种由信噪比（SNR）指导的阶段感知划分策略。与时间步索引不同，SNR 提供了一个物理上更有意义的信号与噪声相对主导地位的度量，并且随着去噪的进行单调递减。在过程开始时（较大，高噪声阶段），潜在表示由低 SNR 的噪声主导，使得粗糙结构恢复成为主要目标。相反，随着减小且 SNR 上升，模型过渡到一个专注于纹理细化的低噪声机制。

基于这一观察，我们定义了一个对应于 SNR 阈值（例如，初始 SNR 值的一半）的过渡边界。然后采用两个特定阶段的专家：一个专门用于高噪声阶段（）的慢速专家，专注于粗糙语义重建；以及一个用于低噪声阶段（）的快速专家，用于增强细粒度细节。这种 SNR 引导的划分允许每个专家在其最有效的机制中运行，形成了去噪过程的语义上有意义的分解。

极小训练集的惊人有效性 (Surprising effectiveness of extremely small training sets)为了评估分阶段 LoRA 是否可以恢复加速推理，我们最初使用仅 10 个训练样本进行了一个过拟合风格的实验。出乎意料的是，模型迅速学习到了加速采样轨迹的忠实近似。更为显著的是，将数据集减少到仅单个训练样本仍然产生了一种稳定的加速行为。

我们将这种数据效率归因于流匹配（flow matching）的本质。通过直接预测沿扩散轨迹的目标速度场，训练目标绕过了冗余的分数匹配（score-matching）步骤。因此，即使只有几个示例，也能从中提取出用于快速推理的基本结构知识。

精心设计的时间步跳过的必要性 (Necessity of carefully designed timestep skipping)尽管这种数据效率前景广阔，但随后的消融研究表明，时间步的跳过绝非任意的。虽然少步数的学生模型可以在总体上模仿教师模型的行为，但并非所有时间步对重建动力学的贡献都是相等的；天真的跳过策略可能会严重降低性能。为此，我们对不同的专门化方案进行了全面调查。我们首先探索了为慢速阶段 LoRA 适配器分配多个时间步，同时为快速阶段保留单个适配器，反之亦然。我们还测试了一种退化配置，即在整个轨迹上训练单个 LoRA。然而，这些变体要么缺乏表达能力来捕捉高噪声的复杂性，要么未能利用低噪声细化阶段的时间局部性。

实验最终表明，将轨迹分离为专用的慢速区域和专用的快速区域会产生最稳健的专门化效果。这种设计保留了足够的容量来建模具有挑战性的高噪声动力学，同时在后续步骤中实现轻量级细化，从而实现了一种紧凑而有效的加速机制。

流匹配监督 (Flow-matching supervision)每个特定阶段的 LoRA 专家都在流匹配监督方案下进行训练，该方案将其预测的去噪方向与底层数据流对齐。给定扩散过程中获得的噪声潜在变量，模型预测一个速度场，该速度场受到真实流向量的监督。训练目标定义为加权均方误差：

其中表示可选的时间步相关加权函数。通过将每个专家的训练样本限制在其分配的去噪阶段，模型有效地学会了专注于不同的噪声水平。由此产生的阶段感知 LoRA 专家混合体共同提高了去噪速度和生成质量，构成了我们提出的慢-快（slow-fast）范式的基础。

实验

本节介绍了 Glance 在文本到图像生成任务上的综合评估。首先报告与竞争基线的定量结果比较，随后是详细的消融分析。然后讨论模型的泛化行为及其对数据规模的敏感性。

实验设置

蒸馏设置 (Distillation Setup)。 将两个大规模文本到图像生成器 FLUX.1-12B和 Qwen-Image-20B蒸馏为紧凑的 Slow-Fast 学生模型。在蒸馏过程中，从教师继承的基础参数保持冻结，仅优化 LoRA 适配器。遵循 Qwen-Image-Distill-LoRA，将适配器的放置扩展到标准注意力投影之外。具体而言，LoRA 模块不仅注入到查询（query）、键（key）、值（value）和输出投影中，还注入到视觉和文本分支的辅助投影层和模态特定的 MLP 中。这种更广泛的集成使学生能够更有效地捕捉跨模态依赖关系，并在容量紧凑的情况下保持生成保真度。

评估协议 (Evaluation protocol)。 对来自三个不同提示集的高分辨率图像生成进行全面评估：(a) 来自 COCO 2014 验证集的 10K 标题，(b) 来自 HPSv2 基准的 3200 个提示，(c) 来自 OneIG-Bench的 1120 个提示，(d) 来自 GenEval 基准的 553 个提示，(e) 来自 DPG-Bench的 1065 个提示，以及 (f) 来自 LongText-Bench的 160 个提示。对于 COCO 和 HPSv2 集，我们报告常见指标，包括 FID、补丁 FID (pFID)、CLIP 相似度、VQAScore和 HPSv2.1。在 COCO 提示上，FID 是针对真实图像计算的，反映数据对齐。在 HPSv2 上，CLIP 和 VQAScore 衡量提示对齐，而 HPSv2 捕捉人类偏好对齐。对于 OneIG-Bench、GenEval、DPG-Bench 和 LongText-Bench，采用其官方评估协议并基于其各自的基准指标报告结果。

主要结果

性能曲线：Glance 的性能曲线（图4）紧密贴合基础模型，表明加速后的行为高度一致。

定量对比：在 OneIG-Bench、HPSv2 和 GenEval 上，Glance 分别达到了教师模型 92.60%、99.67% 和 96.71% 的性能。即使与需要数千 GPU 小时训练的方法（如 DMD2, Qwen-Image-Lightning）相比，仅训练 1 小时的 Glance 也展现出可比甚至更优的效果。

视觉质量：定性对比（图5）显示，Glance 在 8 步推理下保留了语义完整性，而其他 4 步模型（如 Lightning）可能在细节上有所欠缺。

消融研究

Slow-Fast 设计：对比了多种时间步分配策略，结果显示"慢速阶段3步 + 快速阶段5步"的非对称配置优于均匀分布或单模型配置，证明了针对性加速的必要性。数据规模：将训练样本从 1 个增加到 100 个并未带来显著提升，说明数据的质量和阶段对齐比单纯的数据量更关键。时间步覆盖：更多的 LoRA 适配时间步能带来更好的文本渲染和整体质量。

结论

Glance框架采用轻量级蒸馏架构，通过相位感知的"慢-快"设计加速扩散模型推理。研究发现，LoRA适配器能够有效区分去噪过程的不同阶段，从而高效捕捉全局语义与局部细节。该框架仅需八步即可实现高质量图像生成，相比基础模型获得5倍加速。尽管仅使用单张图像和数小时GPU训练，Glance仍能保持相当的视觉保真度，并对未见提示词展现出强大泛化能力。这些结果表明，数据与算力高效的蒸馏方法能够保持大型扩散模型的表现力而不牺牲质量。相信Glance可作为加速大规模扩散模型的优选方案，在数据稀缺场景中尤具应用潜力。

参考文献

[1] Glance: Accelerating Diffusion Models with 1 Sample

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年12月5日星期五

仅用1张图1小时，比肩FLUX。1和Qwen，推理狂飙5倍！Glance用“快慢哲学”颠覆扩散模型！