ComposeMe 提出了一种新颖有效的细粒度、可控人体图像生成方法。通过提出的特定属性图像提示,该方法能够从不同的视觉源进行可组合的合成。
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
ComposeMe 是一个以人为本的生成模型,能够对多个主体的多种视觉属性(例如身份、发型和服饰)进行解耦控制,同时还支持基于文本的控制。它使用特定属性的标记化和多属性交叉引用训练,通过细粒度且解耦的属性控制,实现最先进的个性化生成。
该方法通过提供发型、身份和衣着等特定属性的图像提示,合成高保真度的人体图像,并对每个属性进行精细控制。 我们的结果展示了如何通过重新组合不同的属性,生成具有解耦控制的多样化、逼真的输出。
效果展示
单人全身
多属性个性化
两人仅面部多属性
两人多属性
相关链接
论文:https://arxiv.org/pdf/2509.18092 项目:https://snap-research.github.io/composeme
论文阅读
ComposeMe:用于可控人体图像生成的属性特定图像提示
生成高保真度的人物图像,并对发型和衣着等属性进行精细控制,仍然是个性化文本到图像合成的核心挑战。虽然现有方法强调从参考图像中保存身份信息,但它们缺乏模块化,无法提供对特定视觉属性的解耦控制。
论文引入了一种新的基于属性的图像提示范式,其中使用不同的参考图像集来指导生成人物外观的各个方面,例如头发、衣着和身份。该方法将这些输入编码为特定于属性的标记,并将其注入到预先训练的文本到图像扩散模型中。这使得能够对多个视觉因素进行组合和解耦控制,甚至可以跨单个图像中的多个人物进行控制。
为了促进自然构图和稳健的解耦,精心设计了一个交叉引用训练数据集,其中包含姿势和表情各异的受试者,并提出了一种多属性交叉引用训练策略,该策略鼓励模型在遵循身份和文本条件的同时,从不一致的属性输入中生成可靠的输出。大量实验表明,该方法在准确遵循视觉和文本提示方面达到了最佳性能。框架通过将视觉提示与文本驱动的生成相结合,为更具可配置性的人体图像合成奠定了基础。
方法概述
ComposeMe 采用基于属性的分词技术,跨多个主体来表示身份、发型和服饰。基于属性的图像提示会被分别分词,然后将生成的嵌入数据合并并注入到预先训练好的扩散模型中。
ComposeMe 训练策略
方法包括两阶段训练:
单一参考复制粘贴培训 传统的单参考适配器训练将具有多个属性的身份视为单个不可分割的对象,直接从目标图像中裁剪而来。这种方法在生成新内容时通常会导致不良的复制粘贴伪像。ComposeMe 使用这种传统的训练策略作为第一阶段,学习每个属性的外观。
多属性交叉引用训练 我们的多属性交叉引用训练具有属性感知能力:它将每个身份分解为不同的视觉属性(例如,面部、发型、服装),并从不同的输入图像中获取每个属性,并将单独的图像预测为目标。这种方法会整理未对齐的输入和目标图像,从而即使在推理过程中,从未对齐的属性输入也能生成自然对齐、连贯的输出。
实验结果
结论
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论