由 Tiamat AI 联合上海科技大学、新加坡国立大学及 Liblib AI 团队推出的DiT(Diffusion Transformer)控制框架-EasyControl,可以为 Diffusion Transformer 添加高效灵活的控制。
通过轻量级条件注入模块、位置感知训练范式和因果注意机制实现高效灵活的多条件控制图像生成。
目前还可以支持「吉卜力」风格生成。模型专门针对「吉卜力」动画的光影、色彩和情感表达进行优化,能生成具有标志性手绘质感的图像,如《千与千寻》《龙猫》等作品的风格。
相关链接
论文:https://arxiv.org/pdf/2503.07027 主页:https://easycontrolproj.github.io/ 代码:https://github.com/Xiaojiu-z/EasyControl 模型:https://huggingface.co/Xiaojiu-Z/EasyControl/ 试用:https://huggingface.co/spaces/jamesliu1217/EasyControl/
论文介绍
基于 Unet 的扩散模型(例如 ControlNet 和 IP-Adapter)的最新进展引入了有效的空间和主题控制机制。然而,DiT(扩散变压器)架构仍然难以实现高效灵活的控制。为了解决这个问题,我们提出了EasyControl,这是一个新颖的框架,旨在统一条件引导的扩散变压器,具有高效率和灵活性。我们的框架建立在三个关键创新之上。
首先,我们引入了轻量级的条件注入 LoRA 模块。该模块独立处理条件信号,可作为即插即用的解决方案。它避免修改基础模型权重,确保与定制模型的兼容性,并能够灵活地注入各种条件。值得注意的是,即使仅在单一条件数据上进行训练,该模块也支持和谐而强大的零样本多条件泛化。
其次,我们提出了一种位置感知训练范式。这种方法将输入条件标准化为固定分辨率,允许生成具有任意长宽比和灵活分辨率的图像。同时,它优化了计算效率,使该框架更适合实际应用。
第三,我们结合KV Cache技术,开发了因果注意力机制,适用于条件生成任务。这一创新显著降低了图像合成的延迟,提高了框架的整体效率。
通过大量实验,我们证明了 EasyControl 在各种应用场景中都表现出色。这些创新使我们的框架非常高效、灵活,适用于各种任务。
方法
EasyControl 框架示意图。 条件信号通过新引入的条件分支注入扩散变压器 (DiT),该变压器与轻量级、即插即用的条件注入 LoRA 模块一起对条件标记进行编码。
在训练过程中,每个单独的条件都会进行单独训练,其中条件图像的大小会调整为较低的分辨率,并使用我们提出的位置感知训练范式进行训练。这种方法可以实现高效而灵活的分辨率训练。该框架采用了因果注意机制,可以实现键值 (KV) 缓存,从而大幅提高推理效率。此外,我们的设计有助于无缝集成多个条件注入 LoRA 模块,从而实现稳健而和谐的多条件生成。
条件注入 LoRA 模块
图 (a) 显示了不同控制条件下每种方法的结果,图 (b) 显示了控制下每种方法对不同 Style LoRA 的适应性。
身份保护控制
主题控制生成
空间控制生成
灵活的分辨率生成
结论
EasyControl是一个高效灵活的统一条件引导扩散模型框架。该框架利用了三个关键创新:
轻量级条件注入 LoRA 模块,可在不改变核心模型功能的情况下无缝集成各种条件信号。 位置感知训练范式,确保适应各种分辨率和宽高比。 一种新颖的因果注意机制与 KV 缓存技术相结合,可显著提高效率。
这些组件共同解决了可控图像生成中的效率和灵活性挑战。EasyControl 在广泛的视觉任务中实现了强大的可控性和高质量的结果。大量实验证明了它能够处理复杂的多条件场景,同时扩展到不同的分辨率和宽高比。为条件图像生成提供了强大且适应性强的解决方案。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论