2025年11月7日星期五

顶刊TPAMI!字节联合中科大重磅打造文本到图像定制化生成新范式!

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Zhendong Mao等

解读:AI生成未来
图片

论文链接:https://ieeexplore.ieee.org/abstract/document/11206511 
代码链接:https://github.com/bytedance/RealCustom 
项目链接:https://corleone-huang.github.io/RealCustom_plus_plus/ 
Hugging Face:https://huggingface.co/bytedance-research/RealCustom

亮点直击

  • 突破传统方法存在的主体一致性和文本可控性之间的权衡取舍问题,创新性地将参考图主体表征为真实文本单词,通过解耦文本和参考图的影响区域,同时实现高度主体一致性和文本可控性;
  • 曾作为即梦线上主体保持生成算法广泛应用;

研究动机

图片

现有范式将主体表示为一个伪词(例如),并将其与文本结合用于生成。伪词本身存在固有冲突(即,会导致其他真实词语偏离其原有语义)和纠缠(即,影响范围与文本有重叠),从而产生了双最优悖论:主体相似性与文本可控性之间存在权衡。

提出RealCustom++ 的真词定制化生成新范式,首先将主体表示为真实词语(例如主体的超类别词),在引导分支中生成引导图像,并获得主体引导掩码。随后,在生成分支中,主体仅在掩码范围内发挥影响,而其他区域则完全由文本控制,从而同时实现了高主体相似性和文本可控性。

方法优势

  • 生成图像的主体区域与参考图高度一致,非主体区域则完全不受参考图影响,实现主体保持的一致性和文本可控性的协同统一。
图片
  • 高度灵活:通过在推理阶段选择不同的单词,我们方法实现了灵活通用的任意层次的主体/主体群的精准保持生成。
图片

技术方案

RealCustom++ 采用了一种全新的"训练-推理"解耦框架,拜托了对主体保持的配对数据依赖: 
(1)在训练阶段,RealCustom++学习视觉条件与文本中所有真实词语之间的通用对齐关系。具体实现包括:通过跨层跨尺度投影器(CCP)提取细粒度且鲁棒的主体表征,以及通过课程式训练策略(CTR) 平滑且高效地注入主体表征。 
(2)在推理阶段,RealCustom++提出了由自适应掩码引导(AMG)机制连接的双分支架构。其中,引导分支生成主体引导掩码,生成分支则利用该掩码,仅在与主体相关的区域内定制生成特定真实词语。

图片

效果对比

图片

我们在单主体保持和多主体保持效果上都显著超越了SOTA方法。

图片
图片

结论

本文提出了RealCustom++这一创新定制范式,首次通过真实词汇无冲突地表征主体,实现了主体相似性与文本可控性的精准解耦。该范式通过训练-推理解耦框架内的渐进式定制过程,将目标真实词汇从通用概念逐步细化为具体主体。RealCustom++采用跨层跨尺度投影器与渐进式课程训练策略,实现了鲁棒的特征提取及姿态与尺寸的多样性。在推理阶段,自适应掩码指导技术能准确定制目标真实词汇,同时有效保留主体无关区域。我们进一步通过多真实词汇定制算法将RealCustom++扩展至多主体场景。大量实验表明,该方法在单主体与多主体的实时开放域定制任务中,在主体相似性与文本可控性方面均达到了最先进的性能水平。

参考文献

[1] RealCustom++: Representing Images as Real Textual Word for Real-Time Customization

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码免费加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

顶刊TPAMI!字节联合中科大重磅打造文本到图像定制化生成新范式!

点击下方 卡片 ,关注" AI生成未来 " 👇扫码 免费加入 AI知识星球 ,如您有工作需要分享,欢迎联系: aigc_to_future 作者:Zhendong Mao等 解读:AI生成未来 论文链接:https://ieeexplore.ieee.o...