2025年6月5日星期四

字节 DreamFit 虚拟试衣:任意服装随心试,多风格人体模特一键匹配生成,轻量级即插即用!

今天跟大家介绍一款由字节提出的新的虚拟试衣框架:DreamFit,这是一款结合了一种专门为以服装为中心的人类生




今天跟大家介绍一款由字节提出的新的虚拟试衣框架:DreamFit,这是一款结合了一种专门为以服装为中心的人类生成量身定制的轻量级任何服装编码器。DreamFit具有三个关键优势:

  • 轻量训练:只需8340万可训练参数
  • 任何服装:可试穿任意风格服装
  • 即插即用:兼容各种社区插件试用

下面展示的是 DreamFit 以服装为中心的人体生成结果:图片

  • 上图:DreamFit 可以根据给定的服装图像和提示,合成具有多种风格、背景和体型的人体图像。
  • 中图:DreamFit 与 ControlNet和 FaceID等社区插件兼容。
  • 下图:DreamFit 与 SOTA 方法相比表现出卓越的性能,实现了最高水平的纹理和文本一致性。

相关链接

  • 论文:https://arxiv.org/pdf/2412.17644
  • 代码:https://github.com/bytedance/DreamFit
  • 模型:https://huggingface.co/bytedance-research/Dreamfit
  • 工作流:https://www.runninghub.cn/post/1920852726639693826/?inviteCode=kol01-rh059
图片
图片

方法介绍

图片

基于文本或图像提示,以服装为中心生成人体的扩散模型因其巨大的应用潜力而备受关注。然而,现有方法往往面临一个难题:轻量级方法(例如适配器)容易生成不一致的纹理;而基于微调的方法训练成本高昂,并且难以维持预训练扩散模型的泛化能力,从而限制了其在不同场景下的性能。为了应对这些挑战,论文提出了DreamFit,它集成了一个专为以服装为中心的人体生成量身定制的轻量级 Anything-Dressing 编码器。

DreamFit 具有三大主要优势:

  • 轻量级训练:通过提出的自适应注意力和 LoRA 模块,DreamFit 将模型复杂度显著降低至 83.4M 个可训练参数。
  • 任何着装:我们的模型出奇地适用于各种(非)服装、创意风格和提示说明,能够在各种场景中始终如一地提供高质量的结果。
  • 即插即用:DreamFit 专为与任何用于传播模型的社区控制插件顺利集成而设计,确保轻松兼容并最大限度地减少采用障碍。

为了进一步提升生成质量,DreamFit 利用预训练的大型多模态模型 (LMM),通过细粒度的服装描述来丰富提示,从而缩小训练和推理之间的提示差距。我们对 768 × 512 高分辨率基准和自然场景图像进行了全面的实验。DreamFit 超越了所有现有方法,彰显了其以服装为中心的人体生成领域的领先优势。

概述

图片DreamFit 概述。 DreamFit利用LoRA层构建了一个Anything-Dressing 编码器。Anything-Dressing 编码器提取参考图像特征,然后通过自适应注意力机制将其传入去噪UNet。此外,DreamFit将大型多模态模型 (LMM)纳入推理过程,以减少训练和测试之间的文本提示差距。

实验结果

公开和内部基准的定性比较。DreamFit 在处理复杂图案和文本方面表现出明显的优势。
公开和内部基准的定性比较。DreamFit 在处理复杂图案和文本方面表现出明显的优势。
DreamFit 的即插即用结果,我们的方法可以与社区条件控制插件无缝集成
DreamFit 的即插即用结果,我们的方法可以与社区条件控制插件无缝集成


图片


针对开放和内部基准的三个指标对不同方法进行的定量比较。
针对开放和内部基准的三个指标对不同方法进行的定量比较。

结论

DreamFit是一个以服装为中心的新型人体图像生成框架,旨在解决现有方法的低效和局限性。通过利用基于 LoRA 层的轻量级、即插即用的 AnythingDressing 编码器,DreamFit 显著降低了模型复杂性和内存占用,从而促进了更高效、可扩展的训练流程。

该方法将大型多模态模型集成到推理过程中,有效缩小了训练和推理文本提示之间的领域差距,并提高了生成图像的整体质量和一致性。在公开和内部基准测试中开展的大量实验表明,DreamFit 不仅达到了最佳性能,还在各种场景中展现出卓越的泛化能力。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

AI文本转语音进入“Next Level”!独角兽ElevenLabs发布Eleven v3:狠狠拿捏情感控制

可多人丝滑聊天,支持70多种语言 一水 发自 凹非寺 量子位 | 公众号 QbitAI AI文本转语音已经进化到这种程度了吗?(⊙ˍ⊙) 莎士比亚戏剧腔、体育赛事激情解说、沉浸式有声书等诸多玩法简直轻松拿捏,而且听起来确实人机傻傻分不清楚~ ...