2025年4月12日星期六

突破传统“非此即彼”,真灵魂P图!腾讯最新FlexIP黑科技:身份保持和个性化我都要!


点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Linyan Huang等

解读:AI生成未来

文章链接:https://arxiv.org/pdf/2504.07405 
项目链接:https://flexip-tech.github.io/flexip

亮点直击

  • 双适配器解耦设计: 首次将身份保持(Preservation Adapter)和个性化编辑(Personalization Adapter)显式分离,避免特征竞争,实现更精准的控制,优于现有SOTA。
  • 动态权重门控机制: 通过连续可调参数动态平衡身份保持与编辑强度,支持从细微调整到大幅变形的灵活控制,突破传统"非此即彼"的限制。
  • 模态感知训练策略: 根据数据特性(静态图像/视频帧)自适应调整适配器权重,图像数据强化身份锁定,视频数据优化时序变形,提升生成鲁棒性。
上图:FlexIP 展示了在个性化图像生成中的多样性与精确性。仅凭一张参考图像(左列),它不仅生动还原了身份特征,还能灵活响应多样的文本提示,生成既连贯又高度多样化的编辑结果。下图:FlexIP 采用的动态权重门控机制可在"强身份保持"与"个性化多样性"之间平滑切换,显著优于 IP-Adapter(后者在身份表现上容易突变,控制力也更僵硬)。这一点体现了 FlexIP 更出色的灵活性与用户友好的可控性。

(动物域)SDXL上的个性化设置

人物个性化对比

(物体域)SDXL上的个性化对比

与Inpainting模型结合(SDXL Inpainting)展示

总结速览

解决的问题

  • 身份保持与编辑灵活性的固有矛盾:现有方法在生成模型中难以同时实现高保真身份保持和多样化个性化编辑,通常需要在两者之间做出权衡。
  • 跨模态对齐不足:传统零样本方法依赖视觉-语言对齐模块(如Q-former),导致图像生成任务中视觉与文本信息未能有效协同,影响身份保持和编辑效果。
  • 控制粒度不足:现有方法通过单一参数调整身份保持强度时,往往产生突变效果,缺乏连续、精细的控制能力。

提出的方案

  • 双适配器架构(Dual-Adapter)
    • Preservation Adapter(保持适配器):专注于身份特征(高层语义和低层空间细节),通过跨注意力层锁定关键身份信息。
    • Personalization Adapter(个性化适配器):基于文本指令和高层语义实现多样化编辑,避免特征竞争。
  • 动态权重门控机制:在推理阶段通过动态调整双适配器的权重比例,实现身份保持与编辑灵活性的连续参数化控制。
  • 模态感知训练策略
    • 静态图像数据:偏向保持适配器,强制身份一致性。
    • 视频帧数据:偏向个性化适配器,利用时序变形能力实现连贯编辑。

应用的技术

  • 解耦设计:通过"低耦合、高内聚"原则分离身份保持与编辑功能,避免传统单一路径的特征冲突。
  • 跨注意力机制:保持适配器通过跨注意力捕获多粒度视觉特征(如人脸细节),增强身份鲁棒性。
  • 动态插值:权重门控机制支持用户实时调整适配器贡献,形成连续的"控制曲面"。
  • 多模态数据训练:结合图像和视频数据,分别优化适配器的身份锁定与变形能力。

达到的效果

  • 突破性能限制:在身份保持准确性(如人脸、物体细节)和编辑多样性(如风格、姿态变换)上均超越现有方法。
  • 灵活可控性:用户可通过参数连续调节生成效果,从细微修饰到大幅变形均保持身份一致性。
  • 广泛适用性:支持艺术创作、广告设计等场景,兼顾高保真与创意自由度。
  • 实验验证:定量与定性实验表明,FlexIP在身份相似度(如CLIP-I得分)和编辑质量(如用户偏好率)上达到SOTA水平。

关键创新点

  • 显式解耦:首次将身份保持与编辑分解为独立可控维度。
  • 动态门控:将传统二元权衡转化为连续控制,实现"参数化编辑"。
  • 模态感知训练:根据数据特性(图像/视频)自适应调整适配器权重,优化生成效果。

方法

本节首先提供文本到图像扩散模型的基础概述,包括其核心机制及其与本工作的相关性。在此基础上,全面阐述所提出的 FlexIP 框架。首先阐明其开发动机的关键观察与挑战,随后系统地分解其架构与工作流程,详细说明其利用预训练文本到图像扩散模型实现主体保持与个性化的创新方法。

在图像保持和文本保真两个指标上与其他方法的比较表明,本文的方法在这两个方面都优于以前的方法

保持适配器

确保身份保持的第一步是确定应使用哪些查询和特征来检索主体特定属性。即,何种查询能有效提取富含身份的信息?

可学习查询的适应性
为泛化至不同主体,一种直观方法是从数据分布中直接学习表征。与静态嵌入不同,可学习查询  提供了一种可训练的主体表征,能动态适应多样化主体。这些查询构成一个灵活的潜在空间,既能编码主体细节,又可跨不同风格和条件保持泛化性。

CLIP [CLS] 嵌入的全局身份表征
此外,CLIP [CLS] 嵌入  作为预训练的全局身份描述符,以紧凑形式封装高层语义(如结构、风格),为身份保持提供稳定性和鲁棒性。

二者的互补性
保持细粒度与全局身份属性常被视为简单挑战。可学习查询擅长捕捉细粒度变化但缺乏全局一致性,而 CLIP [CLS] 嵌入提供全局身份一致性却可能忽略细微主体细节。因此,我们采用"分而治之"策略,整合二者从 DINO 块嵌入中同时检索细粒度适应性与全局鲁棒性(如下图 3 左下图所示),确保编辑时身份保持仍稳定。

通过 DINO 块嵌入  的交叉注意力独立重采样可学习查询  和 CLIP [CLS] 嵌入 

其中 ⊕ 表示拼接操作。P 作为身份保持模块,整合了细粒度局部细节(通过可学习查询)和全局语义(通过 CLIP [CLS] 嵌入)。

个性化适配器

在个性化方面,Stable Diffusion 已经通过交叉注意力将 UNet 潜在空间与文本嵌入进行条件化。然而,这种条件化仅提供一般的语义指导,缺乏对主体特定视觉身份的显式关联。因此,仅依赖原始文本嵌入可能导致编辑意图与主体外观之间的错位。

通过引入额外的个性化适配器来解决这一限制,其中文本嵌入显式关注 CLIP [CLS] 嵌入。这一额外的重采样步骤使文本嵌入能够吸收有意义的视觉线索,将文本修改锚定在一致的视觉上下文中。因此,文本指令更具身份感知能力,从而引导既准确又与主体外观一致的编辑。

个性化适配器的功能如下:

其中  为文本嵌入(查询向量), 为 CLIP [CLS] 嵌入(键值对)。通过这一机制,文本引导不再孤立存在,而是被视觉上下文化,从而产生更精准、灵活且身份一致的编辑效果。

动态权重门控

为解决现有方法在保持能力与风格化自由度之间的固有权衡,提出一种新颖的动态权重门控(DWG)机制,用于图像和视频数据的联合训练。实证分析表明:

  • 图像数据 能提升保持质量,但会导致复制粘贴伪影并削弱指令遵循性
  • 视频数据 可促进时序多样性,但会弱化保持强度

本文的框架通过动态调整两个专用适配器的贡献,实现两种模态的优势互补:

  • 保持适配器 P 经图像数据优化,用于维持高保真细节和指令一致性
  • 个性化适配器 S 设计用于从视频数据注入时序多样性和风格化自由度

DWG 机制根据输入数据类型自适应地重新加权 P 和 S。设  表示来自图像数据集  或视频数据集  的训练样本,其特征表示  通过门控融合计算如下:

其中是由数据决定的门控权重,其表达式为:

其中是初始化参数,用于优先处理图像时强化P()和视频时强化S()。该公式确保:以图像为中心的训练会放大P以最大化保持效果,保证图像基本特征得以保留;而以视频为中心的训练则会抑制P以增强S的风格化能力,实现更适合视频数据的动态、富有表现力的变换。这种自适应机制使模型能够动态平衡保持与风格化,无需依赖人工启发式规则,有效结合两种数据模态的优势。通过将传统的二元保持-编辑权衡转化为连续的参数控制曲面,该方法可支持广泛的应用场景。

实验

训练数据集

理想训练需要展示同一主体在不同场景或视角下的图像对,但此类数据通常难以获取。先前方法依赖简单增强手段,无法表征真实姿态和视角变化。沿用前人工作,利用多视角和视频数据集,这些数据天然提供同一主体的多帧画面。

本文的数据集包含123万张变化样本和1100万张不变图像,涵盖人脸图像、自然场景、虚拟试穿、人类动作、显著性和多视角物体。为平衡多样性与泛化性,我们对视频数据重采样以保持变化与不变数据1:1比例,避免冗余。

此外,先前工作常对视频帧使用简单统一的文本提示,限制了模型遵循细致指令的能力。为提升文本条件化和编辑灵活性,使用Qwen2-VL为每帧生成高质量独特描述。该方法增强了文本引导的多样性和语义相关性,提高了模型遵循详细编辑指令的能力。

评估数据集与指标

从DreamBench+和MSBench收集评估数据,包含187个独特主体。每张图像使用其对应的9组提示进行测试,每组提示生成10次,最终产生16,830张定制化图像用于全面评估。

本文使用多项指标评估模型。对于身份保持,在应用分割去除背景干扰后,采用DINO-I和CLIP-I计算相似度分数。对于个性化,CLIP-T度量生成图像与提示在CLIP文本-图像嵌入空间中的语义对齐度。此外,使用CLIP-IQA和CLIP-Aesthetic评估图像质量。本文还计算各方法在所有指标上的平均排名(mRank)以综合反映其性能。

对比实验

定量对比

本实验从个性化、保持性、图像质量和用户研究四个维度对比了多种方法。如下表1所示,FlexIP在所有评估指标上均优于其他方法,尤其在综合排名(mRank)、个性化(CLIP-T)、保持性(CLIP-I和DINO-I)和图像质量(CLIP-IQA和Aesthetic)方面表现突出。

在个性化方面,FlexIP的CLIP-T得分为0.284,略低于λ-Eclipse方法。但需注意的是,λ-Eclipse是以牺牲主体保持能力为代价实现的这一分数。在保持性指标上,FlexIP的CLIP-I和DINO-I得分分别达到0.873和0.739,展现了其在保持图像细节和语义一致性方面的优势。图像质量评估中,FlexIP的CLIP-IQA和Aesthetic分数分别为0.598和6.039,表明其生成的图像具有更优的质量和美学价值。

为提供更符合人类感知的个性化评估,本文采用MLM-Filter进行测评。与传统CLIP-T方法依赖全局对比特征不同,MLM-Filter利用先进的多模态大语言模型能力捕捉细微物体属性和语义差异,可实现与人类判断一致的情境感知评估。下表2显示,FlexIP在图像-文本匹配(I-T Match)、物体细节满意度(Detail)和语义理解(Semantic)三个互补维度上均表现优异,这凸显了其精准捕捉视觉细节并整合辅助信息的能力,与人类偏好高度吻合。

为验证方法的实用性,进一步评估了不同方法在实际应用中的用户满意度,重点关注灵活性(Flex)和身份保持(ID-Pres)两个指标。本研究共使用33个样本进行评估,每次评估中向参与者展示各方法生成的图像集合,由60名评估者根据两个标准进行选择:最符合文本语义的图像和最佳保持主体的图像。如表1所示,FlexIP在这两项指标上均表现最优。

定性对比

为全面评估FlexIP的性能,选取每个主体三张不同图像,与五种前沿方法进行可视化对比。如下图4所示,相较于现有方法,FlexIP生成的图像在保真度、可编辑性和身份一致性方面均有显著提升。实验结果表明,在相同文本指令下,FlexIP能跨参考图像稳定保持主体特征与个性化效果,验证了模型中显式权衡机制的有效性。

消融实验

为验证动态权重门控机制在平衡身份保持与个性化编辑方面的效能,我们开展了系统的消融研究。图5表明,通过调节保持适配器与个性化适配器的权重比例,本框架能在推理阶段实现两个目标的精细化权衡。所提出的门控机制在训练阶段解耦了两个适配器的优化路径,从而规避了联合优化中隐式权衡导致的次优性能。

下图5的定性结果显示:当保持适配器权重增大(如)时,系统优先保证输入主体身份的高保真重现,结构与纹理细节偏差最小;而增大个性化适配器权重(如)则提升编辑自由度,在保持语义连贯的前提下实现更大幅度的风格化转换。关键的是,权重线性插值使用户能在推理时平滑调节保持-编辑谱系,这是静态融合方法无法实现的能力。

将模型扩展至零样本风格迁移任务,重点测试指令跟随与细节信息提取能力。如下图6所示,本方法在该任务中表现优于其他方案,这得益于双适配器架构既能提取细粒度信息,又能平衡细节保持与指令编辑的关系。

结论

FlexIP是一种面向图像合成的灵活主体属性编辑框架,通过解耦身份保持与个性化编辑这两个目标,有效克服了现有方法的局限。其双适配器架构利用高层语义概念与低层空间细节确保身份完整性,动态权重门控机制则将二元的保持-编辑权衡转化为连续的参数控制曲面,为主体驱动图像生成提供了鲁棒而灵活的解决方案。

参考文献

[1] FlexIP: Dynamic Control of Preservation and Personality for Customized Image Generation

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

没有评论:

发表评论

谷歌Veo 3:AI生成视频还能带音效?太炸裂了!

谷歌Veo 3:一句生成,视频无忧,创意轻松流! 谷歌最近发布了一大堆东西,类似肯德基全家桶吧,你可以把它看做谷歌AI全家桶,因为一直比较关注AI视频方面的内容,今天就来讲讲 谷歌刚刚发布的Veo3 ,它能让你只用一句话,生成一段带画面、配音、音效的完整视频!而且效果惊人,连...