2024年7月28日星期日

IMAGDressing-v1:文字指令一键换装、变换姿势、切换背景,开启个性化时尚新纪元!

IMAGDressing-v1是一种先进的虚拟试衣技术。它通过一个特殊的网络(服装UNet)来捕捉服装的细节特征,同时利用一个去噪网络(去噪UNet)来处理图像。这个技术的关键是一个混合注意力模块,它结合了固定和可训练的注意力机制,使得服装的特征能够更好地融入到生成的图像中。这样,用户就可以通过文字描述来控制生成的图像,比如改变服装、姿势或背景,从而实现个性化的服装展示。

虚拟试穿与虚拟穿衣任务在条件和适用场景上的差异。

相关链接

代码地址:https://github.com/muzishen/IMAGDressing

论文地址:https://arxiv.org/pdf/2407.12705

项目主页:https://imagdressing.github.io/

演示地址:https://sf.dictdoc.site/

摘要

最新进展通过使用潜在扩散模型进行局部服装修复实现了逼真的虚拟试穿 (VTON),显著提升了消费者的在线购物体验。然而,现有的 VTON 技术忽视了商家全面展示服装的需要,包括对服装、可选面部、姿势和场景的灵活控制。为了解决这个问题,我们定义了一个虚拟穿衣 (VD) 任务,专注于生成具有固定服装和可选条件的可自由编辑的人体图像。同时,我们设计了一个综合亲和力指标指数 (CAMI) 来评估生成的图像和参考服装之间的一致性。

然后,我们提出了 IMAGDressing-v1,它结合了一个服装 UNet,可以捕获来自 CLIP 的语义特征和来自 VAE 的纹理特征。我们提出了一个混合注意模块,包括冻结的自注意和可训练的交叉注意,将来自服装 UNet 的服装特征集成到冻结的去噪 UNet 中,确保用户可以通过文本控制不同的场景。IMAGDressing-v1 可以与其他扩展插件(例如 ControlNet 和 IP-Adapter)结合使用,以增强生成图像的多样性和可控性。

此外,为了解决数据不足的问题,我们发布了交互式服装配对 (IGPair) 数据集,其中包含超过 300,000 对服装和着装图像,并建立了数据组装的标准管道。大量实验表明,我们的 IMAGDressing-v1 在各种受控条件下实现了最先进的人体图像合成性能。

方法

虚拟试穿 (VTON)与虚拟穿衣 (VD)

IMAGDressing-v1 框架图示。主要由可训练的服装 UNet 和冻结的去噪 UNet 组成。前者提取细粒度的服装特征,而后者用文本提示平衡这些特征。IMAGDressing-v1 与其他社区模块兼容,例如 ControlNet 和 IP-Adapter。

  • 简单的架构:IMAGDressing-v1 可以制作逼真的服装,并支持用户轻松进行场景编辑。
  • 新任务:定义虚拟穿衣(VD)任务并设计综合亲和力指数(CAMI)指标
  • 灵活的插件兼容性:IMAGDressing-v1 适度与 IP-Adapter、ControlNet、T2I-Adapter 和 AnimateDiff 等扩展插件集成。
  • 快速定制:无需额外的 LoRA 培训,即可在几秒钟内实现快速定制。
  • IGPair 数据集:发布全新交互式服装搭配(IGPair)数据集。

来自IGPair数据集的样本对,包括姿态关键点、密集姿态、人体分割面具。

实验

与 MagicClothing 相比

与 IP 适配器结合

与 IP-Adapter 和 ControlNet-Pose 结合

支持不同场景的文字提示

与其他SOTA方法在非特异性和特异性条件下的定性比较。

结论

虽然最近使用潜在扩散模型的 VTON 取得了进展,增强了在线购物体验,但它们不足以让商家全面展示服装,并灵活控制面部、姿势和场景。为了弥补这一差距,我们引入了虚拟穿衣 (VD) 任务,旨在在可选条件下生成带有固定服装的可编辑人体图像。

我们提出的 IMAGDressing-v1 采用服装 UNet 和混合注意模块来集成服装功能,从而实现通过文本进行场景控制。它支持 ControlNet 和 IP-Adapter 等插件,以实现更大的多样性和可控性。此外,我们发布了包含超过 300,000 对服装和着装图像的 IGPair 数据集,提供了强大的数据组装管道。大量实验验证了 IMAGDressing-v1 在受控人体图像合成中实现了最先进的性能。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

推荐:一款功能强大的AI视频生成工具!有点强!

推荐阅读: 14.6K Star!一个免费没有限制的录屏工具!很强! 点赞!几个很有用的网站工具!建议收藏! 大家好!我是老码! 今天给大家推荐一个 由清华大学与生数科技联合研发的视频大模型工具,它是一个 具备长时长、高一致性、高动态性特点的视频生成模型。它 支持一键生成  ...