AI I024: 端到端像素扩散天降外挂！北大&华为等开源DeCo：生图质量超越SD3、OmniGen2等

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Zehong Ma等

解读：AI生成未来

论文链接：https://arxiv.org/pdf/2511.19365
项目链接：https://zehong-ma.github.io/DeCo/
代码链接：https://github.com/Zehong-Ma/DeCo

亮点直击
DeCo解耦框架：DiT专注低频语义建模（采用下采样输入）；轻量级像素解码器重建高频信号。
创新频率感知损失函数：通过DCT转换至频域；基于JPEG量化表分配自适应权重；强化视觉显著频率，抑制高频噪声。
DeCo在像素扩散模型中取得领先性能：ImageNet上FID得分1.62（256×256）和2.22（512×512），缩小了与两阶段潜在扩散方法的差距。本文预训练的文本到图像模型在系统级评估中同样在GenEval（0.86）和DPG-Bench（81.4）上获得SOTA结果。
通过架构级解耦实现专业化分工，为像素扩散模型提供了新的设计范式，同时保持端到端训练的优势。

总结速览

解决的问题

核心矛盾：像素扩散模型需要在一个单一的扩散Transformer中同时建模高频信号（细节、噪声）和低频语义（结构、内容），导致模型负担过重、效率低下且生成质量受损。
具体弊端：

高频噪声会干扰DiT对低频语义的学习。
单一模型难以在巨大像素空间中兼顾两种不同特性的任务。
传统方法导致训练和推理速度慢，输出图像存在噪声且质量下降。

提出的方案

核心框架：提出名为DeCo的频率解耦像素扩散框架。
核心思想：将高低频组分的生成进行解耦，让不同组件各司其职。
具体措施：

让DiT专注于低频语义建模，使用下采样输入。
引入一个轻量级像素解码器，在DiT提供的语义引导下，专门负责重建高频信号。
提出一种频率感知流匹配损失函数，以优化训练。

应用的技术

架构解耦：采用DiT作为语义主干，配合轻量级像素解码器的双路径架构。
频率感知损失：利用离散余弦变换将信号转换到频域，并基于JPEG量化表先验为不同频率分量分配自适应权重，以强调视觉显著频率、抑制高频噪声。
端到端训练：保持像素扩散端到端训练的优势，同时通过解耦设计提升效率。

达到的效果

性能领先：在ImageNet上取得了像素扩散模型中卓越的性能，FID达到1.62（256×256）和2.22（512×512），显著缩小了与主流潜在扩散方法的差距。
全面优异：预训练的文本到图像模型在系统级评估中，于GenEval（0.86）和DPG-Bench（81.4）上获得领先成绩。
质量提升：通过解耦设计和频率感知损失，有效提升了视觉保真度，并缓解了高频噪声的干扰。
验证有效：实验结果验证了在像素扩散中解耦高低频组分建模这一思路的有效性。

方法

概述

本节首先回顾基线像素扩散中的条件流匹配，随后介绍本文提出的频率解耦像素扩散框架。

条件流匹配。 条件流匹配提供了一个连续时间生成建模框架，其通过学习速度场，将样本从简单先验分布（如高斯分布）传输到以标签和时间为条件的数据分布。给定通过干净图像与噪声间插值构建的前向轨迹，条件流匹配的目标是将模型预测速度与真实速度进行匹配：

其中轨迹的线性插值定义为：

真实速度可通过对时间的导数推导得出：

在像素扩散基线中，轨迹通常首先通过补丁嵌入层（而非VAE）进行令牌化处理以实现图像下采样。在本文的基线及DeCo实验中，本文对DiT输入统一采用16×16的补丁尺寸。基线方法将补丁化后的轨迹输入DiT，通过解补丁层预测像素速度。该方案要求DiT同时建模高频信号与低频语义，而高频信号（特别是高频噪声）难以建模，会干扰DiT对低频语义的学习。

DeCo框架。 为实现高频生成与低频语义建模的分离，本文提出频率解耦框架DeCo。如下图3所示：

DiT被用于从下采样的低分辨率输入中生成低频语义，具体过程如下：

其中为时间，为标签或文本提示。如后文所述，轻量级像素解码器随后以DiT输出的低频语义为条件，结合全分辨率密集输入生成额外高频细节，最终预测的像素速度如下所示：

该新范式利用像素解码器生成高频细节，使DiT能专注于语义建模。这种解耦机制将不同频率的建模任务分离到不同模块，从而加速训练并提升视觉保真度。

为进一步强化视觉显著频率并忽略不重要的高频分量，本文引入了频率感知流匹配损失函数。该损失函数通过源自JPEG感知先验的自适应权重对不同频率分量进行重新加权。结合基线中的标准像素级流匹配损失与REPA对齐损失，最终目标函数可表示为：

像素解码器

如上图3所示，像素解码器是一个轻量级无注意力网络，由个线性解码块和若干线性投影层构成。所有操作均为局部线性运算，可在无需自注意力计算开销的前提下实现高效的高频建模。

稠密查询构建。 像素解码器直接以全分辨率含噪图像作为输入（不进行下采样）。所有含噪像素与其对应的位置编码拼接后，通过线性投影形成稠密查询向量：

其中，和分别表示原始图像的高度和宽度（例如256），代表像素解码器的隐藏维度（例如32）。相关消融实验参见下表4(c)和(d)。

解码器块。 对于每个解码器块，DiT输出经过线性上采样并调整形状以匹配的空间分辨率，得到。随后通过MLP生成自适应层归一化的调制参数：

其中为 SiLU 激活函数。本文采用 AdaLN-Zero [43] 对每个模块中的稠密解码器查询进行如下调制：

其中 MLP 包含两个带有 SiLU的线性层。

速度预测。 最后，通过线性投影及重排操作将解码器输出映射至像素空间，得到预测速度。该速度包含像素解码器生成的高频细节以及来自 DiT 的语义信息。

频率感知 FM 损失

为进一步促使像素解码器聚焦于感知重要的频率并抑制无关噪声，本文引入了频率感知流匹配损失。

空间-频率变换。 本文首先将预测的和真实的像素速度从空间域转换到频域。具体流程为：将色彩空间转换为 YCbCr 后，按照 JPEG标准执行分块 8×8 离散余弦变换。将该变换记为，则有：

感知加权。 为强化视觉显著频率并抑制次要频率，本文采用JPEG量化表作为视觉先验生成自适应权重。量化间隔越小的频率具有越高的感知重要性。因此，本文使用质量等级下缩放量化表的归一化倒数作为自适应权重，即。当质量等级介于50至100之间时，可根据JPEG预设规则获取对应的缩放量化表：

其中表示 JPEG 标准中定义的基础量化表。基于自适应权重，频率感知流匹配损失定义如下：

实证分析

为验证DeCo有效实现频率解耦，本文分析了DiT输出与像素速度的DCT能量谱（下图4）。

相较于基线方法，本文的像素解码器成功保持了像素速度中的所有频率分量。同时，DeCo中DiT输出的高频能量显著低于基线，表明高频组分已从DiT转移至像素解码器。这些观测证实DeCo实现了有效的频率解耦。上表4(c)(d)的结果进一步表明，这一成功解耦得益于两项关键架构设计：

多尺度输入策略。 多尺度输入策略至关重要：通过该策略，像素解码器可在高分辨率原始输入上轻松建模高频信号，同时使DiT能够从高频信号已被部分抑制的低分辨率输入中专注建模低频语义。值得注意的是，本方案DiT采用16×16的补丁尺寸，显著大于PixelFlow[6]的4×4补丁，使其更适用于语义捕获而非细节重建。

基于AdaLN的交互机制。 自适应层归一化为DiT与像素解码器提供了强大的交互机制。在本框架中，DiT的作用类似于传统文生图模型中的文本编码器，提供稳定的低频语义条件。AdaLN层随后以DiT输出为条件，对像素解码器中的稠密查询特征进行调制。实验证实，该调制机制在融合低频语义与高频信号方面，比UNet等采用上采样叠加低频特征的简单方法更为有效。

实验

本文在ImageNet 256×256数据集上进行了消融实验与基线对比。针对类别到图像生成任务，本文在ImageNet 256×256和512×512分辨率上提供详细对比，并报告FID、sFID、IS、精确度与召回率；针对文本到图像生成任务，本文报告在GenEval和DPG-Bench上的结果。

基线对比

实验设置。 基线对比中所有扩散模型均在ImageNet 256×256分辨率下训练20万步，采用大型DiT变体。相较于基线的核心架构改进是将最后两个DiT块替换为本文提出的像素解码器。推理阶段使用50步欧拉采样且不采用无分类器引导。本文对比了需要VAE的两阶段DiT-L/2，以及PixelFlow、PixNerd等近期像素扩散模型，同时将DDT适配为像素扩散基线PixDDT，并集成JiT到本文的基线中（结合REPA）以进行公平对比。

详细对比。 如下表1所示，本文的DeCo框架在参数量更少的情况下，所有指标均显著超越基线，同时保持相当的训练与推理成本。值得注意的是，仅通过频率解耦架构，DeCo（未使用）即可将FID从61.10降至34.12，IS从16.81提升至46.44；结合频率感知FM损失后，DeCo进一步将FID降低至31.35并在其他指标上持续提升。相较于两阶段DiT-L/2，本文的无VAE DeCo模型在达到相当性能的同时显著降低了训练与推理开销。相比其他像素扩散方法：DeCo比多尺度级联模型PixelFlow更高效且性能更优；比基于单尺度注意力的PixDDT表现更卓越；相较近期PixNerd在取得更优FID的同时降低了训练与推理成本。

JiT指出高维噪声会干扰有限容量模型对低维数据的学习，通过预测干净图像并将生成过程锚定在低维数据流形，成功将FID从61.10降至39.06（上表1）。本文的DeCo具有相似动机——防止含高维噪声的高频信号干扰DiT学习低频语义的能力，但提出了架构层面的解决方案：引入轻量级像素解码器专注建模高频信号，解放DiT学习低频语义。DeCo还能缓解干净图像中高频噪声（如相机噪声）的负面影响，因此实现了优于JiT的FID（31.35对39.06）。

类别到图像生成

实验设置。 在ImageNet上的类别到图像生成实验中，本文首先在256×256分辨率下训练320轮，随后在512×512分辨率下微调20轮。推理阶段使用100步欧拉采样配合CFG [18]与引导间隔[29]，在单张A800 GPU上测量推理延迟。

主要结果。 本文的DeCo在ImageNet 256×256和512×512上分别达到领先的FID 1.62和2.22。在256×256分辨率下，DeCo展现出卓越的推理效率：仅需1.05秒即可生成图像（100推理步），而RDM需38.4秒、PixelFlow需9.78秒。训练效率方面（表1），单次迭代仅需0.24秒，远低于PixelFlow的1.61秒。在相同320轮训练后，本模型FID（1.90）显著低于基线的2.79，并超越近期PixelFlow与PixNerd。如下图5所示，DeCo仅用80轮（40万步）即达到FID 2.57，超越基线800轮的表现，实现10倍训练效率提升。经过800轮训练后，DeCo在像素扩散模型中以250采样步数达到最优FID 1.62，甚至可与两阶段潜在扩散模型媲美。使用相同heun采样器与50步推理在600轮时，DeCo达到FID 1.69，以更少参数量和FLOPs超越JiT的FID 1.86。在512×512分辨率下，DeCo显著优于现有基于像素的扩散方法，创下领先的FID 2.22。此外，按照PixNerd方法将ImageNet 256×256模型在320轮后微调20轮，本文的FID和IS可与DiT-XL/2及SiT-XL/2经过600轮训练后的结果相媲美。

文本到图像生成

实验设置。 针对文本到图像生成任务，本文在BLIP3o [5]数据集上训练模型（包含约3600万预训练图像和6万高质量指令微调数据），采用Qwen3-1.7B [65]作为文本编码器。完整训练在8×H800 GPU上耗时约6天。

主要结果。 相较于两阶段潜在扩散方法，本文的DeCo在GenEval基准测试中获得0.86的综合评分，超越SD3 、FLUX.1-dev 等知名文生图模型以及BLIP3o、OmniGen2等统一模型。值得注意的是，尽管使用与BLIP3o相同的训练数据，本模型仍实现更优性能。在DPG-Bench上，DeCo取得与两阶段潜在扩散方法相当的竞争力平均分。相比其他端到端像素扩散方法，DeCo较PixelFlow和PixNerd具有显著性能优势。这些结果表明，通过DeCo实现的端到端像素扩散能以有限训练/推理成本达到与两阶段方法相媲美的性能。文生图DeCo的生成效果可视化见上图1。

进一步消融实验

本节针对像素解码器设计、DiT与像素解码器交互机制、频率感知FM损失超参数进行消融研究，所有实验均遵循前文设置。

像素解码器隐藏维度。 如上表4(a)所示，当隐藏维度时DeCo性能最优：过小维度限制模型能力，更大维度未带来增益。故默认采用隐藏维度32。

像素解码器深度。 上表4(b)显示3层解码器效果最佳：单层能力不足，6层可能引发优化困难。采用32隐藏维与3层结构时，本文的无注意力解码器仅含850万参数，能高效处理高分辨率输入。

像素解码器补丁尺寸。 上表4(c)表明当解码器补丁尺寸为1（直接处理全分辨率输入）时性能最优。对解码器输入进行补丁化会降低效果，当采用与DiT相同的16大补丁时性能最差，这验证了多尺度输入策略的有效性。所有对比实验均保持相近参数量与计算成本。

DiT与像素解码器交互机制。 上表4(d)显示，采用UNet [46]式的简单上采样叠加方案效果逊于基于AdaLN的交互。AdaLN [43]以DiT输出作为语义条件指导速度预测，提供了更有效的交互机制。

损失权重。 上表4(e)表明当损失权重为1时结果最优，故设为默认值。

中的JPEG质量因子。上表4(f)研究了JPEG质量因子影响：质量为100（无损压缩）时所有频率等权处理，所得FID为33.84（与未使用的34.12接近）；常用质量85表现最佳，在强调重要频率同时适度弱化次要频率以实现最优平衡；质量降至50会过度抑制高频信号，轻微损害性能。因此所有实验采用JPEG质量85。

结论

DeCo——一种面向像素扩散的频率解耦创新框架。通过使用DiT建模低频语义、轻量级像素解码器建模高频信号，DeCo显著提升了生成质量与效率。提出的频率感知FM损失通过优先处理感知重要频率进一步优化视觉质量。DeCo在类别到图像与文本到图像生成基准测试中均达到像素扩散领先性能，缩小了与两阶段潜在扩散方法的差距。

参考文献

[1] DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年11月26日星期三

端到端像素扩散天降外挂！北大&华为等开源DeCo：生图质量超越SD3、OmniGen2等