如您有工作需要分享,欢迎联系:aigc_to_future
作者:Jiale Tao、Qixun Wang等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2504.12395
代码链接:https://github.com/Tencent/InstantCharacter
亮点直击
开放域泛化能力(Generalizability) 突破传统方法局限于特定角色类型的限制,实现跨域(写实肖像/动漫/游戏角色等)灵活个性化生成,支持多样化外观、动作与风格的精准适配,同时保持高保真输出。 可扩展架构设计(Scalability) 首创面向DiT的可扩展适配器,通过全Transformer结构分层整合多阶段角色特征(通用视觉编码+区域/低层特征融合),并与十亿参数级DiT隐空间高效交互,解决U-Net适配器无法扩展至大模型的瓶颈。 数据与训练协同优化(Versatility) 构建千万级异构数据集(配对/非配对样本),配套三阶段解耦训练策略,实现效率与质量的平衡。
总结速览:
解决的问题
泛化能力不足:现有基于U-Net的学习方法在开放领域(如多样化的角色外观、姿态、风格)中泛化能力有限,生成的图像质量不佳。 文本控制性下降:基于优化的方法需针对特定角色微调,导致文本编辑灵活性降低,且计算成本高昂(尤其对数十亿参数的扩散Transformer不适用)。 数据与架构适配性差:传统适配器无法有效处理大规模扩散Transformer(如DiT)的隐空间对齐,且缺乏足够的训练数据支持。
提出的方案
InstantCharacter框架:
基础模型:基于扩散Transformer(DiT,如FLUX1.0-dev)构建,利用其强大的生成先验和可扩展性。 可扩展适配器:通过堆叠Transformer编码器处理开放领域角色特征,并与扩散Transformer的隐空间高效交互。 双数据训练策略: 配对数据(多视角角色图像):优化身份一致性。 非配对数据(文本-图像组合):增强文本编辑能力。 三阶段训练:分阶段优化角色一致性、文本控制性和图像保真度,避免多目标冲突。
应用的技术
扩散Transformer(DiT):替代传统U-Net,利用其高容量和灵活性生成高质量图像。 Transformer编码器适配器: scalable设计,支持多阶段特征融合与隐空间交互。 大规模数据集:构建10M级角色数据集,涵盖真实照片、动漫、游戏资产等多样化样本。 分阶段训练策略:通过数据解耦(配对/非配对)和分阶段目标优化,平衡身份保持与文本控制。
达到的效果
高泛化性:支持开放领域角色定制(真实人像、动漫、游戏角色等),适应多样外观、姿态和风格。 高效可控:无需推理时微调,保持文本编辑灵活性,显著降低计算成本。 高保真生成:生成图像在身份一致性、文本对齐和视觉质量上优于现有方法(如基于U-Net的适配器或优化方法)。 可扩展性:适配器设计兼容十亿参数级DiT模型(如FLUX 12B),为未来大模型个性化提供基础。
标杆意义:在角色驱动图像生成中,首次实现高质量、高可控与高效率的统一,为创意产业(如漫画、游戏设计)提供实用工具。
相关工作
文本到图像(T2I)扩散模型
近期,文本到图像生成领域的研究经历了从传统U-Net架构向更强大的扩散Transformer(DiTs)的范式转变。早期的扩散模型(如Stable Diffusion,SD)展现了卓越的图像合成能力,而现代基于DiT的系统(如SD3和FLUX.1)通过其基于Transformer的架构和先进技术(如修正流)在生成质量上设立了新的标杆。这一架构演变既为角色中心化应用带来了机遇,也带来了挑战。尽管DiT提供了更强大的生成能力,但其在身份保持任务上的适应性仍未被充分探索。我们的工作通过开发首个专为角色定制优化的基于DiT的框架,填补了这一关键空白。
个性化角色生成
个性化图像生成的最新进展经历了从基于微调的方法到基于适配器的方法的演变。早期方法[18, 1, 3, 7, 4]依赖于为每个新主体微调整个扩散模型,这不仅计算成本高昂,且由于训练数据有限导致泛化能力较差。为解决这些问题,近期研究[24, 9, 13, 22, 10, 5, 21, 12]引入了基于适配器的技术,避免了测试时的微调。例如,IP-Adapter采用CLIP图像编码器提取主体特征,并通过交叉注意力将其注入冻结的扩散模型,从而实现高效个性化。然而,这些基于适配器的方法主要建立在容量受限的U-Net架构上,导致其难以有效扩展,并常常生成低保真输出,且对多样化角色姿态和风格的泛化能力有限。相比之下,本文工作提出了一种可扩展的扩散Transformer框架,克服了这些限制,在开放域泛化性、图像保真度和文本可控性上均优于基于U-Net的替代方案。
方法
现代DiT相较于传统基于U-Net的架构展现了前所未有的保真度和容量,为生成和编辑任务提供了更强大的基础。基于这些进展,提出了InstantCharacter——一种新颖的框架,将DiT扩展为可泛化且高保真的角色驱动图像生成系统。如图2所示,InstantCharacter的架构围绕两大关键创新展开:
可扩展适配器模块:设计用于高效解析角色特征,并与DiT的隐空间无缝交互。 渐进式三阶段训练策略:适配我们收集的多功能数据集,支持角色一致性和文本可编辑性的分阶段训练。
通过灵活适配器设计与分阶段学习策略的协同结合,增强了通用角色定制能力,同时最大化保留了基础DiT模型的生成先验。
可扩展适配器设计
传统的定制适配器(如IPAdapter或ReferenceNet)通常在DiT架构中失效,因为它们是专为基于U-Net的模型设计且缺乏可扩展性。为更好地适配DiT模型,提出了一种可扩展的全Transformer适配器,作为条件角色图像与基础模型潜生成空间之间的关键桥梁。全Transformer结构通过增加层深度和隐藏特征尺寸实现可扩展性。该适配器包含三个编码器模块,具体如下:
通用视觉编码器
首先利用预训练的大型视觉基础编码器提取通用角色特征,受益于其开放域识别能力。先前方法[24, 10]通常依赖CLIP以对齐视觉和文本特征。然而,尽管CLIP能捕获抽象语义信息,但其容易丢失细节纹理信息(这对保持角色一致性至关重要)。为此,采用SigLIP替代CLIP,因其擅长捕捉细粒度角色信息。此外,引入DINOv2作为另一图像编码器以增强特征鲁棒性,减少背景或其他干扰因素导致的特征损失。最终,通过通道级拼接整合DINOv2和SigLIP特征,形成更全面的开放域角色表征。
中间编码器
由于SigLIP和DINOv2的预训练和推理分辨率较低(384×384),通用视觉编码器的原始输出在处理高分辨率角色图像时可能丢失细粒度特征。为缓解此问题,采用双流特征融合策略分别探索低层和区域级特征:
低层特征:直接从通用视觉编码器的浅层提取,捕获高层易丢失的细节。 区域级特征:将参考图像划分为多个不重叠区块,每个区块输入视觉编码器获取区域特征。
随后,这两类特征流通过专用中间Transformer编码器进行分层整合。具体而言,每条特征路径由独立的Transformer编码器处理以融合高层语义特征,最终沿token维度拼接精炼后的特征嵌入,形成捕获多级互补信息的综合表征。
投影头
精炼的角色特征最终通过投影头注入去噪空间,并与隐噪声交互。通过时间步感知的Q-former实现:其将中间编码器输出作为键值对处理,同时通过注意力机制动态更新一组可学习查询。转换后的查询特征随后通过可学习交叉注意力层注入去噪空间。该适配器实现了高保真身份保持与复杂文本驱动修改的灵活适配。
训练策略
为有效训练框架,我们首先构建了包含1000万张多样化全身人物/角色图像的优质数据集,涵盖非配对图像(学习鲁棒角色一致性)和配对数据(实现精准文图对齐)。
本文训练方案精心设计以优化角色一致性、文本可控性和视觉保真度:
角色一致性阶段:使用非配对数据训练,以角色图像为参考引导重建自身并保持结构一致性。实验表明512分辨率比1024更高效。 文本可控性阶段:继续在低分辨率(512)下训练,但切换至配对数据。以角色图像为输入,根据文本描述生成新场景中不同动作、姿态和风格的图像。此阶段有效消除"复制粘贴"效应并增强文本可控性。 高分辨率联合训练:结合配对与非配对图像进行有限次数的高分辨率训练,显著提升图像视觉质量与纹理细节,实现高保真且文本可控的角色生成。
实验
定性结果
与基于FLUX的先进方法(OminiControl、EasyControl、ACE+、UNO)及多模态大模型GPT4o进行对比。评估采用训练数据中未出现的开放域角色图像集。如图3-4所示,现有方法存在局限:
OminiControl与EasyControl无法保留角色身份特征; ACE++仅在简单场景中保留部分特征,对动作类提示表现不佳; UNO过度保持一致性导致动作与背景编辑性降低。
值得注意的是,本文方法与当前未开源的SOTA模型GPT4o效果相当,而InstantCharacter始终表现最佳:即使面对复杂动作提示,也能在保持高保真角色细节的同时实现精准文本控制。图6的定量数据进一步支持这些优势。
多风格个性化
通过引入不同风格LoRA,本文框架可实现灵活角色风格化。如图5所示,InstantCharacter可在吉卜力与Makoto风格间切换而不损失角色一致性与文本编辑性,而Jimeng与GPT4o难以灵活保持风格。
结论
InstantCharacter——一种显著推进角色驱动图像生成的创新扩散Transformer框架。其核心优势包括:
在多样化角色外观、姿态和风格中实现开放域个性化,同时保持高保真质量; 开发可扩展适配器架构,高效处理角色特征并与扩散Transformer隐空间交互; 结合千万级数据集的三阶段训练方法,同步优化角色一致性与文本控制。
定性结果验证了InstantCharacter在生成高保真、角色一致且文本可控图像上的卓越性能。更广泛地,本文工作为适配基础扩散Transformer至专项生成任务提供了见解,可能推动可控视觉合成的新发展。
参考文献
[1] InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论