2025年6月2日星期一

LoRAShop炸裂登场:多概念LoRA“PS”神器!一键融合人物/风格,原图细节无损!

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

解读:AI生成未来

图片文章地址:https://arxiv.org/abs/2505.23758
开源地址:https://lorashop.github.io/ (待开源)

图片

亮点直击

  • 首创多概念LoRA编辑框架:首次实现无需重新训练/微调,直接在给定图片中无缝插入多个由LoRA定义的定制化概念(物体、人物、风格)。
  • 解耦掩码自动提取技术:创新性利用模型内部特征图,自动生成每个LoRA概念的空间影响区域掩码,精准定位编辑位置。
  • 免训练动态融合机制:在推理阶段动态混合多个LoRA权重,仅在其对应掩码区域内激活特定概念,避免概念间干扰(LoRA串扰)。

更多结果

图片
图片
图片
图片

方法

LoRAShop,这是一种无需训练的新流程,通过目标特征混合方案实现多主体生成和编辑的多LoRA适配器使用。方法——多主体残差混合(MSRB)包含两个基本阶段:

  • 提取有效突出每个主体预期出现空间区域的主体先验;
  • 在扩散Transformer中应用残差特征混合方案,选择性合并不同LoRA适配器的输出。
图片

能够在空间上组合对应不同概念的特征,实现无需额外训练的连贯且解耦的多主体生成和编辑。LoRAShop仅干预整流流Transformer的特征空间:既不修改噪声计划,也不改变任何模型权重。在反向扩散过程中,仅覆盖由主体先验指示的token位置的残差特征,保持其他所有token不变。由于此操作是局部且线性的,全局去噪轨迹(因而整体场景布局)保持不变。相同机制可与反转无缝集成。采用[41]的RF-Solver流程,使用二阶求解器恢复目标图像对应的隐空间噪声。在重建隐空间后,利用LoRAShop编辑反转隐空间。如图1和图3所示,这实现了将多个个性化概念区域控制插入真实图像,同时忠实保留输入属性。

图片
图片

实验

在图像生成和图像编辑任务上评估LoRAShop。对于生成,测量方法渲染单个个性化主体的优劣,以及在一个场景中组合多个个性化主体的可靠性。对于编辑,评估真实图像上的身份替换,用LoRA适配器编码的外观替换人物外观。

实验设置 使用FLUX.1-dev作为构建方法的整流流Transformer。本方法基于利用预训练LoRA适配器完成单/多概念生成和编辑任务。所有实验使用diffusers库提供的LoRA。补充材料提供完整实验用LoRA列表及视觉表示。除非另有说明,设置编辑时间步t=0.90,γ=0.94,τ=0.7,在反向过程中从时间步t开始应用提出的混合方案。LoRAShop方法无需对预训练适配器进行训练,可在推理时完成上述个性化任务。实验使用NVIDIA L40S GPU。LoRAShop生成含两个概念的图像约需50秒,而FLUX.1-dev手动推理每图需30秒。此外,由于LoRAShop可顺序应用每个概念,对单图应用概念数量无内存限制。

定性分析

对三个主流任务进行了定性比较:单主体生成、多主体生成和换脸。在所有基准任务中,LoRAShop提供了优于竞争方法的性能:图片

多合成方法的定性比较。LoRAShop与运行在多个 LoRA 适配器上的多合成方法进行比较,LoRAShop 在不依赖姿势输入的情况下表现优于其他竞争方法,从而产生具有不同设置的合成效果。图片

定量比较

单主体生成的定量比较。在整体性能方面,LoRAShop优于竞争对手基于 FLUX 的方法,这是通过身份相似性、快速对齐和视觉质量来衡量的:

图片

多主体生成的定量比较。与基于FLUX和SDXL的方法进行了基准测试。LoRAShop在多个主体上实现了卓越的身份保护,同时保持了基础模型的快速对齐和视觉质量:图片

用户研究。展示了关于身份保留(Q1)和多主体生成任务的快速对齐(Q2)的用户研究结果:图片

换脸的定量比较。将LoRAShop与REFace进行基准测试。虽然LoRAShop在输入保存方面表现平平,但它在身份保存方面做出了重大改进:

图片

讨论

局限性与广泛影响 由于提取的掩码继承了底层扩散模型的潜在偏差(如更关注面部、刻板性别特征或饱和颜色),有时可能错误定位或低估某些区域,导致不连贯或不平衡的编辑,特别是对模型预训练数据中代表性不足的概念。我们的掩码提取利用了Flux架构独有的注意力模式;其他扩散主干(如SDXL-Turbo)可能需要重新调整阈值参数或产生较不连贯的掩码。这限制了在所有T2I模型中的即时可移植性。与其他强大编辑工具一样,LoRAShop可用于制作非自愿内容。尽管如此,LoRAShop首次展示了无需训练、区域控制的多概念LoRA编辑,为组合式图像操作开启了新创意工作流和研究方向。

结论

LoRAShop,首个无需训练的框架,可实现现成LoRA模块的区域控制多概念图像编辑。通过发现并利用Flux扩散Transformer内部空间相干的激活模式,我们设计了解耦潜在掩码提取流程,使每个LoRA仅在其目标区域生效,消除跨概念干扰。在无需额外优化、分割或辅助引导的情况下,LoRAShop将多个个性化主体或风格无缝混合到输入图像中,同时保留全局上下文和精细局部细节。除了推动个性化图像编辑的技术发展,LoRAShop将扩散模型转化为直观的"LoRA版Photoshop",为协作叙事、产品可视化和快速创意迭代开辟了新可能性。

参考文献

[1] LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

链上操作太难?Beratown 来救场了

也许这次,我们离"人人可用"的链上世界,近了一点点。不是所有人都需要理解 RPC、LST、veToken。但每个人都有权利参与。 链上操作越来越强大,但也越来越复杂。 这一年,你是不是也有这样的感受: 想换个代币,要先找是哪条链、哪个协议 想参与借贷,得先...