本篇文章来自公众号粉丝投稿,由香港理工大学的AiDLab团队在ACM TIST 2025 发表了一篇关于生成人工智能 (GenAI) 在时尚行业的综述文章。该论文研究包括了对 470 多篇研究论文的全面回顾和对 300 多个应用程序的深入分析,重点关注它们对该领域的贡献。这些贡献被确定为四类中的 13 个任务:多模式时尚理解,以及图像、3D 和动态(视频和可动画的 3D)格式的时尚合成。
1 论文信息
论文标题:Generative AI in Fashion: Overview
论文作者:Wenda Shi, Waikeung Wong, and Xingxing Zou
作者单位:PolyU(香港理工大学)、AiDLab(人工智能设计研究所)
发表刊物:ACM Transactions on Intelligent Systems and Technology (ACM TIST, JCR Q1)
发表时间:2025年2月18日
Just Accepted 版本:https://dl.acm.org/doi/10.1145/3718098
论文仓库:https://github.com/wendashi/Cool-GenAI-Fashion-Papers/
2 综述背景
如今,时尚行业是采用 GenAI 的最重要领域之一。GenAI 能够产生大量意想不到的输出,使其成为一种宝贵的工具,可在时尚的各个方面带来灵感和提高效率,从协作设计流程到简化内容创作。据麦肯锡称,GenAI 对时尚和奢侈品行业的潜在影响至关重要,预计未来三到五年将为营业利润贡献 1500 亿美元至 2750 亿美元。该行业将艺术表达与商业动态独特地融合在一起,因此特别适合探索 GenAI 的可能性。随着 GPT-4 和 Stable Diffusion 等基础模型引起的重大范式转变,总结现有的时尚相关任务和应用非常必要。
在此背景下,本文旨在基于学术和行业两个角度,提供深入的见解并描绘出一个全面景象。为此,我们对专注于 GenAI 在时尚行业应用的论文进行了全面搜索。我们的工作分析了超过 470 多篇论文的出版物,并将进展分为四类中的 13 个任务,如图 1 所示。除了学术论文外,我们还审查了 300 多种 GenAI 产品,其中包括 69 种与时尚行业相关的产品,以更好地将研究与现实世界的应用联系起来。
3 主要贡献
从 GenAI 的角度全面概述了与时尚相关的任务和方法,目的是为社区提供清晰的指导图,以便迅速掌握这一有前途领域的整体情况,并通过利用基础任务的最新进展促进领域特定知识的转移。 根据输出格式将现有方法分为四类,如表 1 所示。对于每个子任务,我们总结了相应的数据集、评估指标和最新方法的性能比较,并进行了深入分析; 提供了在时尚方法中使用人工智能的商业化应用的典型示例,并详细总结了它们当前提供的功能。 最后,我们概述了当前领域内的挑战,提出了几个有趣且有前途的话题,并讨论了它们未来的方向。
例如,图 8 为 3D 时尚合成(3D-based fashion synthesis)的详细分类,根据输出的 3D 结果 (3D clothed human, 3D garment, sewing pattern 等)分为不同的子任务。再通过生成过程中的条件输入,进一步细分。
通过如图 10 所示,可以清晰地了解到子任务中不同输入的差异,以及该任务的关键目标和相关时尚领域知识。
如表格 13 所示,对于每个子任务,我们总结了目前可以获取的公开数据集,以及该数据被采用的次数和发表的时间。
如图 12 所示,我们对于每类任务(如 3D 时尚合成 )总结并解释了常见的评估指标。
4 挑战和未来方向
1. 挑战:
时尚感知与创作能力:从专业角度看,通用的大模型在捕捉时尚细微差别方面存在局限,而时装设计的创造力,包括其内在逻辑和唤起情感的能力,是现有模型难以企及。 算法不完整或存在偏见:即使仅依赖对时尚的视觉理解也面临挑战,因为最先进的模型难以识别所有时尚属性,存在与肤色和性别相关的偏见。如图 21 中从左到右的 3 和 5 列图像,由于 "长风衣和豹纹靴" 的文本描述存在,导致模型错误地认为所描绘的个体是女性。此外,正如在同一张图的第 4 列和第 6 列中观察到的那样,由于省略了黑人和亚洲人的肤色描述,模型默认生成了白人女性模特。 更多模态与情境化:时尚不仅仅关乎外观,多模态的时尚理解涵盖各种数据类型,捕捉其多面性并确保模态一致性颇具挑战,而整合情境和文化意义则需要抽象推理。 推动人工智能在时尚领域的合理应用:时尚行业对人工智能的态度不一。为推动合理应用,版权和知识产权等伦理考量是首要任务,品牌需评估对隐私等方面的影响,使用多样化数据集,并让利益相关者参与以实现负责任的人工智能应用。
2. 未来方向:
(1)知识增强的基础模型:时尚领域最典型的挑战之一是缺乏专业领域知识,当前基础模型虽经大量数据训练,但因缺少结构化知识仍难以理解特定领域细分内容,设计特定领域结构化知识系统成本高,利用网络剪枝和知识蒸馏等技术也许是增强知识的潜在方法。
(2)视觉生成模型的可控性:时尚领域很多研究关注视觉生成,除了高质量和模式覆盖/多样性外,可控性是用生成式人工智能(GenAI)更新现实应用中设计通用工作流程的关键因素,因为设计师对设计结果有清晰设想,当前生成工具虽能提供多样灵感,但在支持详细修改并保持设计一致性方面不足,限制了GenAI在设计领域的应用。
(3)高精度3D时尚内容合成:元宇宙、数字身份等概念与 3D 时尚领域紧密相关,但当前 3D 生成算法和工具在精确生成3D服装上存在困难。如图 22 所示,左侧图像作为最新 3D 生成算法 TRELLIS 和流行商业工具 Tripo AI 的输入。在图 22 (a) 中,模特的脸部被误解为场景,而在 (b) 中,手部的细节和裙子的薄层织物纹理难以准确重建。
(4)知识产权保护:随着 GenAI 逐步应用于时尚各领域,研究人工智能抄袭检测工具很有前景。例如品牌可嵌入商标或唯一标识符确保即使图像被修改水印仍完好,维持可追溯性和所有权验证。或者利用对抗性攻击引入隐藏水印,以防止未经授权方使用公司资产进行模型训练。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论