2025年8月29日星期五

ICCV 2025 I 上交&阿里联合研发RAGDiffusion:多模态融合精准还原服装结构,一键提取生成服装平面信息。

RAGDiffusion 通过引入检索增强生成框架和多模态融合技术,成功解决了标准服装资产生成中的结构失真与细节模糊问题。其创新的三层次对齐机制确保了生成图像在结构、图案和解码层面的高度忠实性。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!

图片
RAGDiffusion 是由上海交通大学与阿里巴巴联合提出的一项前沿技术,旨在解决标准服装资产生成中的结构失真与细节模糊问题。该技术通过引入检索增强生成(RAG)框架,结合对比学习和结构局部线性嵌入(SLLE),实现了对服装结构的高精度捕捉与细节的真实还原。同时,RAGDiffusion 支持多模态输入,能够理解复杂语义关系,生成多样化的高质量服装图像,为时尚设计、电商展示等领域带来了革命性变化。

图片RAGDiffusion 通过吸收检索到的知识,合成结构和图案上忠实于标准的服装。

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2411.19528
  • 主页:https://colorful-liyu.github.io/RAGDiffusion-page

unsetunset论文介绍unsetunset

图片

标准服装资产生成涉及从多样化的现实世界情境中提取服装信息,创建在清晰背景上显示的正面平铺服装图像。由于高度标准化的采样分布和对生成图像精确的结构要求,这项任务面临着巨大的挑战。现有模型的空间感知能力有限,并且在这种高规格的生成任务中经常出现结构幻觉。为了解决这个问题,我们提出了一种名为 RAGDiffusion 的新型检索增强生成 (RAG) 框架,通过吸收来自 LLM 和数据库的外部知识来增强结构确定性并减轻幻觉。RAGDiffusion 包含两个核心过程:

  1. 基于检索的结构聚合,它采用对比学习和结构局部线性嵌入 (SLLE) 来获取全局结构和空间地标,提供软指导和硬指导以抵消结构模糊性;
  2. 全方位忠实服装生成,引入三级对齐,确保扩散过程中结构、图案和解码组件的保真度。

在具有挑战性的真实数据集上进行的大量实验表明,RAGDiffusion 能够合成结构和细节忠实的服装素材,并显著提升性能,代表了 RAG 在高规格忠实生成方面取得的开创性成果,旨在克服内在幻觉并提高保真度。

unsetunset方法概述unsetunset

图片

RAGDiffusion 的核心在于其创新的 RAG 框架,该框架包含两个关键过程:

  • 检索增强结构聚合:利用对比学习训练双塔网络,提取多模态结构嵌入,并通过 SLLE 算法将这些嵌入映射到标准结构流形上,提供软硬双重结构指导,有效消除结构歧义。
  • 全级别忠实服装生成:在扩散模型生成过程中,引入三层次对齐机制,分别在结构、图案和解码层面确保生成结果的忠实性。通过嵌入提示适配器、参考网络和参数渐进编码适配等技术,提升生成图像的结构准确性、图案细节匹配度和解码保真度。

unsetunset实验结果unsetunset

图片
图片
图片
图片

在极具挑战性的真实世界数据集上,RAGDiffusion 展现了卓越的性能。实验结果表明,与现有方法相比,RAGDiffusion 生成的服装图像在结构准确性和细节还原度上均有显著提升。具体而言,其在 SSIM、LPIPS、FID和 KID等关键指标上均优于基线模型,证明了 RAGDiffusion 在服装生成任务中的优越性和鲁棒性。

unsetunset结论unsetunset

实验结果充分证明了 RAGDiffusion 在提升生成图像质量和多样性方面的有效性。未来,随着技术的不断发展和完善,RAGDiffusion 有望在时尚设计、电商展示、虚拟试衣等多个领域发挥更大作用,推动时尚产业的数字化转型和升级。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

这次讲得够详细!手把手教你本地部署 ComfyUI,轻松玩转 AI 视频生成

ComfyUI本地部署 上期我们聊了  Animate+SecNodes  节点在 AI 视频生成中的强大能力——无论是 视频 换人、换脸、换衣服,还是动作迁移 ,几乎是你想改哪里,就能改哪里! Animate 再进化:视频换人、换脸、换衣、换动作,想换哪儿就换哪儿,AI 轻...