GRAG可以实现对编辑强度的连续、细粒度控制。该方法无需额外模型微调,仅四行代码就能集成到现有框架,且与无分类器引导相比,能更平滑、精确地控制编辑程度,有效提升了图像编辑的质量与可控性。
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
天津大学与快手科技的研究团队针对基于扩散变换器的图像编辑技术中编辑程度控制难的问题,提出组相对注意力引导(GRAG)方法。研究发现DiT模型MM-Attention机制里Query和Key的token嵌入特征有仅与层相关的偏置向量,。
相关链接
论文: https://arxiv.org/abs/2510.24657 主页: https://github.com/little-misfit/GRAG-Image-Editing 试用:https://huggingface.co/spaces/Little-ECHO/GRAG-Image-Editing 
论文介绍
论文标题: 图像编辑中的群体相对注意力引导 
近年来,基于扩散变换器(Diffusion-in-Transformer,DiT)模型的图像编辑技术得到了快速发展。然而,现有的编辑方法往往缺乏对编辑程度的有效控制,这限制了它们实现更个性化结果的能力。
为了解决这一局限性,论文研究了DiT模型中的MM-Attention机制,并观察到查询(Query,Q)和键(Key,K)标记共享一个仅与层相关的偏置向量。将这种偏置解释为表示模型固有的编辑行为,而每个标记与其相应偏置之间的差值则编码了内容特定的编辑信号。基于这一见解,论文提出了组相对注意力引导(Group Relative Attention Guidance,GRAG)方法,这是一种简单而有效的方法,通过对不同标记的差值进行重新加权,来调整模型相对于编辑指令对输入图像的关注点,从而无需任何调优即可实现对编辑强度的连续和精细控制。
在现有图像编辑框架上进行的广泛实验表明,GRAG只需四行代码即可集成,并一致地提高了编辑质量。此外,与常用的无分类器引导(Classifier-Free Guidance)相比,GRAG实现了对编辑程度更平滑、更精确的控制。
方法概述
各个词嵌入与偏置向量之间的差异反映了编辑内容与当前层编辑动作之间的关系。通过调整它们之间的相对关系,可以实现对编辑指令的准确且连续的控制。基于这一见解,论文提出了组相对注意力引导(Group Relative Attention Guidance,GRAG)。如下图所示修改了MM-Attention中与查询Qe相对应的交叉注意力组件。Ks被选为一组词,对其应用组相对调整。这是在MM-DiT图像编辑模型中应用组相对注意力引导的示例。
实验结果
结论
这项工作重新审视了内部注意力机制 扩散在Transformer(DiT)模型中的应用,并揭示了 存在一个支配编辑行为的共享偏差向量。基于这一见解,论文引入了组相对(Group Relative) 注意力引导(GRAG),一种轻量级但有效的 调节群体偏差中标记偏差的策略 实现对编辑操作的精细且连续的控制 优势。GRAG可以无缝集成到现有的 基于DiT的编辑器,在可控性和保真度方面持续改进。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论