添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
NXN Lab提出了一个统一且可扩展的框架Voost,能够在单个扩散变换器中联合建模虚拟试穿和试脱,实现了高质量的结果并在两个任务中都实现了SOTA。同时保持对各种人体姿势、服装类别、背景、光照条件和图像构图的稳健性 。
相关链接
论文:https://arxiv.org/pdf/2508.04825 主页:https://nxnai.github.io/Voost 代码:https://github.com/nxnai/Voost 试用:https://huggingface.co/spaces/nxnai/Voost(Coming soon)
论文介绍
虚拟试穿旨在合成人身穿着目标服装的真实图像,但准确建模服装与人体的对应关系仍然是一项持续挑战,尤其是在姿势和外观变化的情况下。论文提出了一个统一且可扩展的框架Voost,它使用单个扩散变换器联合学习虚拟试穿和试脱。通过联合建模这两个任务,Voost使每对服装-人对能够同时监督两个方向,并支持灵活地调节生成方向和服装类别——从而增强服装-人体关系推理,无需特定于任务的网络、辅助损失或额外标签。此外论文引入了两种推理时间技术:用于增强对分辨率或掩模变化的鲁棒性的注意力温度缩放,以及利用任务间双向一致性的自校正采样。大量实验表明,Voost在试穿和试脱基准测试中均取得了最佳结果,在对齐精度、视觉保真度和泛化能力方面始终优于强大的基准。
方法概述
Voost流程概览。 Voost 通过统一的扩散变换器实现双向虚拟试穿和试脱,从而实现可扩展学习。
注意力图对比 CatVTON 的注意力分散,与查询点无关,表明其空间定位能力较弱。相比之下,Voost能够生成清晰的局部化图,与相应的服装区域很好地匹配,展现出更强的关系理解能力。
实验结果
结论
Voost是一个统一且可扩展的框架,它能够在单个扩散变换器中联合建模虚拟试穿和试脱。通过将这两个任务表示为双向对应任务,Voost 实现了相互监督,而无需依赖特定于任务的架构、辅助损失或额外标签。论文引入了两种推理时间技术:注意力温度缩放和自校正采样。实验表明Voost 在试穿和试脱基准测试中始终超越强基线,在对齐、视觉保真度和泛化方面均达到了最佳性能。这些结果凸显了统一扩散建模在时尚合成中的有效性,并为整合人机交互理解指明了一个有希望的方向。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论