如您有工作需要分享,欢迎联系:aigc_to_future
作者:Song Fei†, Tian Ye†, Lujia Wang, Lei Zhu*
机构:香港科技大学(广州)、香港科技大学
论文链接:https://github.com/W2GenAI-Lab/LucidFlux/blob/main/Technical_Report.pdf
项目主页:https://w2genai-lab.github.io/LucidFlux
代码仓库:https://github.com/W2GenAI-Lab/LucidFlux
引言
在真实场景中拍摄的图像,常常会遭遇各种混合退化问题,比如传感器噪声、运动模糊、镜头畸变以及压缩伪影。这些退化严重影响了人类的感知体验,同时也破坏了图像的语义一致性,使得下游识别和分析任务难以稳定执行。传统的图像复原方法大多基于 CNN 或 Transformer 判别式模型,它们在合成退化任务中能够取得不错的结果,但在复杂的真实退化环境下往往表现不佳,容易出现过度平滑、细节缺失或残留伪影的问题。近年来,生成式方法,尤其是基于扩散模型的方案,开始被应用于通用图像复原。它们能够借助大规模预训练模型的生成先验补充缺失的结构和纹理,但大多数方法依赖于 Stable Diffusion 这类基于 UNet 的架构,其表达能力有限,在处理复杂退化时表现力不足。同时,这些方法通常依赖文本 caption 作为语义条件,而 caption 本身的生成往往需要多模态大模型来完成,带来额外的计算开销和延迟,更重要的是 caption 内容不稳定,甚至可能包含"模糊""低清晰度"等描述,从而反过来误导复原过程,造成语义漂移。
针对这些问题,港科大广州的研究团队提出了 LucidFlux,这是第一个完全开源的基于大规模 Diffusion Transformer (DiT)-Flux 的无需 Caption 的通用图像复原框架。LucidFlux 的核心理念分别从模型和数据pipeline两个角度出发:模型层面,作者团队认为对于UIR任务而言、相比于依赖额外的文本提示,合理配置与调度输入图像自身的条件信号&语义表达是更有潜力的路线,通过在不同时间步和网络层级灵活地注入不同条件,在保护全局结构的同时逐步恢复细节。 数据层面, 作者团队针对UIR任务设计了一个经过严格验证的自动化数据过滤管线, 通过综合利用图像清晰度过滤、平坦度过滤和质量打分来严格过滤出约 34.2 万张高质量图像。
方法
LucidFlux 的整体设计基于大规模 Diffusion Transformer (DiT),并在其基础上引入了几个关键模块:轻量级双分支调控器(Dual-Branch Conditioner, DBC)、时序与层级自适应调制机制(Timestep- and Layer-Adaptive Condition Modulation, TLCM)、以及基于 SigLIP 的无 Caption 语义对齐(Caption-Free Semantic Alignment)。此外,模型的训练还依赖于一个经过严格过滤的大规模数据管线。
双分支调控器(Dual-Branch Conditioner, DBC)
传统的图像复原方法通常仅使用退化图像作为条件输入,但这种做法往往导致噪声和伪影被一同传递到扩散模型中,从而影响复原效果。LucidFlux 的设计思路是通过两个互补的分支分别处理低质量图像(LQ)和轻量复原代理(LRP)。其中,LQ 分支直接对输入退化图像进行编码,保留了细节和高频成分;而 LRP 分支则先通过一个轻量化的复原代理网络得到一个较为干净但可能偏平滑的版本,再进行编码以提供结构性约束。这两个分支各自经过小型的 Transformer Block 提取条件特征,最后被送入调制机制进行融合。这样既能利用 LQ 保留细节,又能通过 LRP 抑制伪影,实现两者的互补。
时序与层级自适应调制(Timestep- and Layer-Adaptive Condition Modulation, TLCM)
扩散过程的不同时间步承担着不同的重建任务,早期的去噪迭代倾向于确定全局的形状与结构,而后期迭代则逐渐填补局部的细节。同时,在 Transformer 的层级结构中,浅层更适合捕捉边缘和低级纹理,而深层则对语义和全局上下文更加敏感。如果在所有时间步和层级上均匀地注入条件信息,会造成冗余甚至冲突。为此,LucidFlux 在 DBC 输出的特征上引入了基于时间步和层级的调制机制。具体而言,它通过对扩散时间步和 Transformer 层级进行正弦位置编码,然后生成逐通道的缩放和偏置参数,对 LQ 和 LRP 的特征进行动态加权。最终,这些加权后的特征通过一个门控机制融合,保证在不同阶段条件信号的使用是最优的。直观而言,TLCM 让模型能够在早期更多依赖 LRP 提供的全局结构,而在后期逐渐转向 LQ 提供的细节信息,从而实现粗到细的渐进复原。
无 Caption 语义对齐(Caption-Free Semantic Alignment)
现有的扩散复原方法通常依赖多模态大模型为输入图像生成 caption,再作为语义条件输入扩散模型。然而这种方案有两个问题:其一,caption 的生成需要额外的计算开销,推理延迟显著增加;其二,caption 内容不稳定,有时甚至包含"模糊""低清晰度"等负面描述,导致模型在训练和推理时出现语义漂移。LucidFlux 的改进是直接放弃文本 caption,而是从轻量复原代理图像中提取 SigLIP 特征,并通过一个轻量 Connector 将其映射到与文本嵌入相同的语义空间。这些特征再与默认的 prompt token 结合,作为条件送入 DiT。这一方案保证了训练和推理阶段的一致性,避免了语义偏移,同时也降低了延迟。换言之,模型直接从输入图像本身提取语义信息,而不再依赖额外生成的文字描述。
大规模数据过滤管线
为了支撑大规模 Diffusion Transformer 的训练,LucidFlux 设计了一个严格的自动化数据过滤管线。在初始阶段,从互联网收集了大规模候选图像,但直接使用会带来噪声和低质量样本。过滤过程分为三步:首先,利用拉普拉斯方差计算图像清晰度,剔除过度模糊的样本;其次,将图像划分为固定大小的 patch,对其边缘方差进行统计,若平坦区域比例过高,则丢弃该图像,以保证训练数据的纹理多样性;最后,通过 CLIP-IQA 对图像进行感知质量打分,仅保留得分排名前 20% 的高质量图像。经过这一流程,最终得到约 34.2 万张高质量图像,并结合合成退化过程构建出 136 万对训练样本。与传统小规模数据集相比,该数据集在分辨率覆盖、语义范围和纹理丰富度上都有显著优势。
为了验证数据过滤的有效性,作者随机选取了 1 万张样本,并与现有数据集进行对比。从属性分布结果来看,我们的数据在 CLIP-IQA 上更高,在模糊度上保持相当水平,同时在平坦度上更低,表明其纹理更加丰富,并且分辨率分布也更为多样化。与此同时,t-SNE 可视化表明该数据集在语义覆盖范围上显著优于 Flickr2K 和 DIV2K,能够为模型提供更全面的训练信号。
实验与结果
LucidFlux 的实验评估覆盖了多个合成与真实退化数据集,包括 DIV2K、LSDIR、RealSR、DRealSR 和 RealLQ250。为了全面验证方法的有效性,作者分别与开源方法和商业方法进行了对比,并通过消融实验进一步分析了各个模块的作用。
开源方法对比
数值结果
在与 ResShift、StableSR、SinSR、SeeSR、SUPIR 和 DreamClear 等开源方法的对比中,LucidFlux 在与人类感知密切相关的指标上全面领先,包括 CLIP-IQA+、MUSIQ、MANIQA、NIMA 和 Q-Align 等。这些指标能够更准确地反映视觉质量和主观感受,因而更具参考意义。相比之下,部分开源方法在 PSNR 和 SSIM 等传统指标上略有优势,但这些指标更偏向像素级误差,与人眼感知的相关性较低,无法充分体现真实的复原效果。
视觉对比结果
在开源方法的视觉效果对比中,作者选取了 RealLQ250 数据集的代表性样本。SeeSR 和 DreamClear 在一定程度上削弱了退化,但仍会残留伪影,或者生成过度平滑的结果,导致纹理恢复有限。SUPIR 能得到较为干净的结果,但往往缺失细节,使得表面过于光滑。相比之下,LucidFlux 在边缘锐利度、纹理丰富性和语义一致性方面表现更优,尤其在人脸毛发、文字和高频纹理等挑战性区域更具优势。这些定性观察与数值结果保持一致,进一步验证了方法的有效性。
商业方法对比
数值结果
在商业方法的对比中,作者选择了 HYPIR-FLUX、Seedream 4.0、Topaz、Gemini 和 MeiTu SR 作为参照。结果表明,LucidFlux 在所有客观指标上均取得最高分,尤其在细节保真度和语义一致性方面表现最为突出。MeiTu SR 在部分场景下具有一定稳定性,但在纹理和细节恢复方面明显逊色;Topaz 和 Seedream 4.0 的结果则过于平滑,缺乏真实感;Gemini 在部分指标上有一定竞争力,但整体仍落后于 LucidFlux。
视觉结果
在与闭源商业方法的视觉效果对比中,作者在 RealLQ250 数据集上展示了代表性样本。HYPIR-FLUX 和 Seedream 4.0 未能完全去除退化,图像中仍然残留明显伪影;Topaz 在抑制退化方面更有效,但生成的纹理偏平,细节过度平滑;Gemini-NanoBanana 输出结果在整体观感上较为自然,但往往难以恢复高频细节;MeiTu SR 的复原能力相对更强,能够生成更清晰、更自然的结果,整体优于大部分商业对手。相比之下,LucidFlux 始终展现出最锐利的结构和最真实的细节,尤其在细粒度区域表现突出,同时保持较高的结构保真度和稳定性。
总结与展望
LucidFlux 展示了一种新的通用图像复原思路,即通过合理的条件调度来发挥大规模 Diffusion Transformer 的潜力,而不是依赖额外的 caption 或者堆砌更多参数。轻量化的双分支调控器保证了细节与结构的互补,时序与层级自适应调制机制让条件信号在扩散过程中得到最佳利用,SigLIP 语义对齐实现了训练与推理的一致性,同时避免了 caption 的不稳定性,再加上严格的数据过滤管线,最终让 LucidFlux 在多项指标和场景中达到了新的 SOTA 水平。
未来的研究方向包括进一步扩展到更高分辨率的图像复原,探索在视频和多帧场景中的应用,以及结合自动化数据选择和模型压缩技术,使得这样的大模型能够在更广泛的实际场景中落地。LucidFlux 的贡献不仅在于提出了一个性能强大的方法,更在于提供了一种新的范式:依赖输入本身的结构和语义信号,而不是外部生成的文本描述,来实现高效、稳定、鲁棒的图像复原。
参考文献
[1] LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
没有评论:
发表评论