腾讯混元联合InstantX团队提出全新角色定制生图框架 InstantCharacter,与当前的SoTA方
腾讯混元联合InstantX团队提出全新角色定制生图框架 InstantCharacter,与当前的SoTA方法GPT4o取得了相当的结果,然而,GPT4o并未开源。相比之下,InstantCharacter始终表现亮眼。InstantCharacter可实现跨多样角色外观、姿势和风格的开放域个性化。
效果展示
与其他方法比较
相关链接
论文:https://arxiv.org/abs/2504.12395
代码:https://github.com/Tencent/InstantCharacter
试用:https://huggingface.co/spaces/InstantX/InstantCharacter
论文介绍
目前基于学习的主题定制方法主要依赖于 U-Net 架构,其泛化能力有限且图像质量不佳。同时,基于优化的方法需要针对特定主题进行微调,这不可避免地会降低文本的可控性。为了应对这些挑战,论文提出了 InstantCharacter——一个基于基础扩散变换器 (Diffusion Transformer) 构建的可扩展角色定制框架。InstantCharacter 展现了三大基本优势:
它能够在保持高保真结果的同时,实现跨不同角色外观、姿势和风格的开放域个性化。 该框架引入了一个可扩展的适配器,该适配器带有级联变换器编码器,可以有效处理开放域角色特征,并与现代扩散变换器的潜在空间无缝交互。 构建了一个包含千万级样本的大规模角色数据集。该数据集被系统地组织成成对(多视角角色)和非成对(文本-图像组合)子集。这种双重数据结构能够通过不同的学习路径同时优化身份一致性和文本的可编辑性。
定性实验证明了 InstantCharacter 在生成高保真、文本可控和字符一致的图像方面的先进能力,为字符驱动的图像生成树立了新的标杆。
方法概述
与传统的基于 UNet 的架构相比,现代 DiT 展现出了前所未有的保真度和容量,为生成和编辑任务提供了更强大的基础。然而,现有方法主要基于 UNet,并且在字符一致性和图像保真度之间面临根本性的权衡,这限制了它们在开放域字符上的泛化能力。此外,目前尚无任何研究成功验证了大规模扩散变换器(例如 12B 参数)上字符定制的能力,这在该领域留下了巨大的空白。
基于这些进展,论文提出了一个扩展 DiT 的全新框架InstantCharacter,用于实现可泛化且高保真度的字符驱动图像生成。InstantCharacter 的架构围绕两项关键创新:
开发了一个可扩展的适配器模块,可以有效地解析字符特征并与 DiT 的潜在空间无缝交互。 设计了一种渐进式三阶段训练策略,以适应我们收集的多功能数据集,从而能够分别训练字符一致性和文本可编辑性。
通过将灵活的适配器设计与分阶段学习策略协同结合,增强了通用角色定制能力,同时最大限度地保留了基础 DiT 模型的生成先验知识。
实验结果
结论
InstantCharacter是一个创新的扩散变换器框架,它显著推进了角色驱动图像生成。该方法具有三大基本优势:
实现了前所未有的开放域个性化,涵盖了各种角色外观、姿势和风格,同时保持了高保真质量; 开发了一个可扩展的适配器架构,可以有效地处理角色特征并与扩散变换器的潜在空间进行交互; 建立了一种有效的三阶段训练方法,结合了千万级的海量数据集,可以同时优化角色一致性和文本控制。
定性结果验证了 InstantCharacter 在生成高保真、角色一致且文本可控的图像方面的卓越性能。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论