最近,厦门大学和腾讯联合提出了VTON-HandFit,模型的主要任务是帮助用户在网上试衣服时,克服手部遮挡的问题。研究人员设计了一种新方法,利用手的形状和姿势的信息,来产生更清晰、真实的图像。这个过程中,他们使用了一个专门的网络来学习手的位置和外观特征,并且通过智能的方式调整这些特征,以尽量减少手遮挡带来的影响。同时,他们也建立了一个包含数千张手部遮挡图像的数据集,以确保模型在不同情况下都能表现良好。最终,经过许多测试,VTON-HandFit在生成的试衣图像上表现得更细致和生动,让线上购物的体验变得更加真实。
不同模型在虚拟试穿中手部遮挡的比较。最左边的三幅图像是来自 VITON-HD 测试集的参考图像,显示了目标服装、模特和模特手部的特写。VITON-HD模型在保留手部细节和实现逼真的服装转移方面表现出色,如红框中突出显示的那样。CatVTON 和 LADI-VTON 使用解析模型来保留手部部分,导致模型图像中残留的伪影和背景不可避免地会持续存在。
相关链接
论文地址:http://arxiv.org/abs/2408.12340v1
代码地址:https://github.com/illumara/VTON-HandFit
论文阅读
VTON-HandFit:由手先验嵌入引导的任意手姿势的虚拟试穿
摘要
尽管基于扩散的图像虚拟试穿已经取得了长足的进步,但新兴方法仍然难以有效解决手部遮挡问题(即衣服区域被手部遮挡),导致试穿性能显著下降。
为了解决现实场景中普遍存在的这一问题,我们提出了 VTON-HandFit,利用手部先验的能力来重建手部遮挡情况下的外观和结构。首先,我们使用基于 ControlNet 的结构定制了一个 Handpose Aggregation Net,明确且自适应地编码全局手部和姿势先验。此外,为了充分利用与手部相关的结构和外观信息,我们提出了手部特征解缠嵌入模块,将手部先验解缠为手部结构参数和视觉外观特征,并定制了一个带掩码的交叉注意以进一步解耦特征嵌入。最后,我们定制了一个 hand-canny 约束损失,以便更好地从模型图像的手部模板中学习结构边缘知识。
VTON-HandFit 在公共数据集和我们自己收集的手部遮挡 Handfit-3K 数据集的定性和定量评估中优于基线,特别是对于现实场景中的任意手部姿势遮挡情况。
方法
VTON-HandFit模型包含几个关键的组件。首先,研究团队开发了手姿态聚合网络,这一网络采用ControlNet结构,旨在自适应地编码全局手部姿势和先验知识。同时,手特征解耦嵌入模块被设计用于将手部先验知识拆解为结构参数化和视觉外观特征,以便于更加精准地生成各类手部姿势下的虚拟试衣图像。此外,研究还引入了手轮廓约束损失,旨在精确学习模型图像的手部边缘结构。这种方法使得手部特征的提取更加精确,减少了服装特征的干扰,从而确保生成图像的质量和真实感。最后,通过收集自定义的Handfit-3K数据集,项目保证了模型在各种手部姿势遮挡场景下的训练和测试效果。
实验
VTON-HandFit与其他方法在公共数据集上的定性比较:(I) Dresscode和(II) vton - hd。
在我们的Handfit-3K数据集上,VTON-HandFit与其他方法的定性比较。在Handfit-3K中,我们注意到图像中的手被遮挡,很难通过遮罩直接区分它们。
配对和非配对设置下Handfit-3K数据集的定量结果。
真实场景中的定性比较。
不同控制强度的手对手的形状和质地的影响。当手从0.2增加到2时,手的形状和姿势更好地匹配深度图,但更高的控制强度会导致手部皱纹和纹理的丢失。
VTON-HandFit与vton - hd数据集变体的定性比较。
结论
我们提出了 VTON-HandFit,这是一种专为解决虚拟试穿场景中的手部遮挡问题而设计的新模型。具体来说,我们开发了一个 Handpose Aggregation Net,通过使用基于 ControlNet 的结构显式和自适应地编码全局手部和姿势先验。为了充分利用与手部相关的结构和外观信息,我们提出了 Hand-feature Disentanglement Embedding 模块,该模块将手部先验明确地分为手部结构参数和视觉外观特征。最后,我们定制了 hand-canny 约束损失,以增强从模型图像的手部模板中学习结构边缘知识的能力。我们的方法已经得到了广泛的定性和定量评估,证明了它优于最先进的虚拟试穿模型,特别是在涉及手部姿势遮挡的情况下。这些结果为更复杂的虚拟试穿应用走向真实场景铺平了道路。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论