AI I024: ICCV 2025 I 上交&阿里联合研发RAGDiffusion：多模态融合精准还原服装结构，一键提取生成服装平面信息。

2025年8月29日星期五

ICCV 2025 I 上交&阿里联合研发RAGDiffusion：多模态融合精准还原服装结构，一键提取生成服装平面信息。

RAGDiffusion 通过引入检索增强生成框架和多模态融合技术，成功解决了标准服装资产生成中的结构失真与细节模糊问题。其创新的三层次对齐机制确保了生成图像在结构、图案和解码层面的高度忠实性。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

RAGDiffusion 是由上海交通大学与阿里巴巴联合提出的一项前沿技术，旨在解决标准服装资产生成中的结构失真与细节模糊问题。该技术通过引入检索增强生成（RAG）框架，结合对比学习和结构局部线性嵌入（SLLE），实现了对服装结构的高精度捕捉与细节的真实还原。同时，RAGDiffusion 支持多模态输入，能够理解复杂语义关系，生成多样化的高质量服装图像，为时尚设计、电商展示等领域带来了革命性变化。

RAGDiffusion 通过吸收检索到的知识，合成结构和图案上忠实于标准的服装。

unsetunset相关链接unsetunset

论文：https://arxiv.org/pdf/2411.19528
主页：https://colorful-liyu.github.io/RAGDiffusion-page

unsetunset论文介绍unsetunset

标准服装资产生成涉及从多样化的现实世界情境中提取服装信息，创建在清晰背景上显示的正面平铺服装图像。由于高度标准化的采样分布和对生成图像精确的结构要求，这项任务面临着巨大的挑战。现有模型的空间感知能力有限，并且在这种高规格的生成任务中经常出现结构幻觉。为了解决这个问题，我们提出了一种名为 RAGDiffusion 的新型检索增强生成 (RAG) 框架，通过吸收来自 LLM 和数据库的外部知识来增强结构确定性并减轻幻觉。RAGDiffusion 包含两个核心过程：

基于检索的结构聚合，它采用对比学习和结构局部线性嵌入 (SLLE) 来获取全局结构和空间地标，提供软指导和硬指导以抵消结构模糊性；
全方位忠实服装生成，引入三级对齐，确保扩散过程中结构、图案和解码组件的保真度。

在具有挑战性的真实数据集上进行的大量实验表明，RAGDiffusion 能够合成结构和细节忠实的服装素材，并显著提升性能，代表了 RAG 在高规格忠实生成方面取得的开创性成果，旨在克服内在幻觉并提高保真度。

unsetunset方法概述unsetunset

RAGDiffusion 的核心在于其创新的 RAG 框架，该框架包含两个关键过程：

检索增强结构聚合：利用对比学习训练双塔网络，提取多模态结构嵌入，并通过 SLLE 算法将这些嵌入映射到标准结构流形上，提供软硬双重结构指导，有效消除结构歧义。
全级别忠实服装生成：在扩散模型生成过程中，引入三层次对齐机制，分别在结构、图案和解码层面确保生成结果的忠实性。通过嵌入提示适配器、参考网络和参数渐进编码适配等技术，提升生成图像的结构准确性、图案细节匹配度和解码保真度。

unsetunset实验结果unsetunset

在极具挑战性的真实世界数据集上，RAGDiffusion 展现了卓越的性能。实验结果表明，与现有方法相比，RAGDiffusion 生成的服装图像在结构准确性和细节还原度上均有显著提升。具体而言，其在 SSIM、LPIPS、FID和 KID等关键指标上均优于基线模型，证明了 RAGDiffusion 在服装生成任务中的优越性和鲁棒性。

unsetunset结论unsetunset

实验结果充分证明了 RAGDiffusion 在提升生成图像质量和多样性方面的有效性。未来，随着技术的不断发展和完善，RAGDiffusion 有望在时尚设计、电商展示、虚拟试衣等多个领域发挥更大作用，推动时尚产业的数字化转型和升级。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

AI I024