苏州大学与阿丘科技联合提出Anomaly Agent多智能体框架,发表于CVPR2026。该框架利用LLM和异常感知CLIP检索历史异常库,结合扩散模型在生产前合成多样化缺陷图像,无需为每类异常单独训练,并引入保真度梯度精化解决语义漂移。适用于工业质检、制造业及AI研究团队,可复用历史数据,提前预判未知异常。
Tags:
苏州大学与阿丘科技团队发表论文《Anomaly Agent: Unified Anomaly Retrieval and Synthesis Before Manufacturing》,针对工业异常检测中真实异常样本极度稀缺的核心痛点,提出了 Anomaly Agent 框架。该框架能够在产品实际生产之前,主动预测并合成该产品可能出现的各类异常图像,打破了传统方法只能在已有异常样本基础上"依葫芦画瓢"的局限。框架由两大核心模块组成:异常参考检索智能体(Anomaly Reference Retrieval Agent)和统一异常合成智能体(Unified Anomaly Synthesis Agent)。前者利用 LLM 与异常感知 CLIP 进行跨模态检索,将产品名称映射到历史异常图像库中的潜在异常样本;后者以检索到的参考异常为条件,驱动扩散模型将该异常"绘制"到目标产品的正常图像上,并通过保真度梯度精化模块平衡生成异常的真实性与参考一致性。
论文链接
https://openaccess.thecvf.com/content/CVPR2026F/papers/Li_Anomaly_Agent_Unified_Anomaly_Retrieval_and_Synthesis_Before_Manufacturing_CVPRF_2026_paper.pdf
与之前方法的对比
传统方法(a)的局限性: 传统方法完全依赖生产过程中采集到的稀缺真实异常数据,并针对每一个异常类别分别训练一个生成模型。这导致三重瓶颈:①无法在生产前预判新产品的未知异常;②生成的异常类型局限于已见过的样本,多样性严重不足;③各模型无法复用历史异常数据,维护成本高昂。 论文方法(b)的突破: Anomaly Agent 引入统一模型进行异常合成,无需为每种异常单独训练。借助海量历史异常图库,可在实际生产前就预判并合成产品可能出现的各类异常,生成过程无需训练,且异常种类更加多样。
论文方法框架
整个框架包含四个关键组件,形成端到端的异常生成流水线:
(a) 异常参考检索智能体(Anomaly Reference Retrieval Agent)
LLM 驱动的异常文本推断: 给定目标产品名称(如"plastic bottle"),通过 RAG 技术查询预定义的历史产品-异常知识库,构建结构化 Prompt 输入 LLM,令其像质检专家一样推断该产品可能出现的异常类型列表 (如"划痕""污染""凹坑"等)。 跨模态检索(文本→图像): 针对每条异常文本 ,利用 CLIP 文本编码器生成文本嵌入,在庞大的历史异常图库中检索余弦相似度最高的 Top-K 图像,随机采样一张作为参考异常图像 。
(b) 统一异常合成智能体(Unified Anomaly Synthesis Agent)
基于修改后的 Stable Diffusion 模型,以参考异常图像 、正常目标图像 和程序化生成的掩码 为条件,采用图像修复(inpainting)方式在目标对象的指定位置生成与参考异常一致的合成异常图像 。映射层将参考图像的视觉特征转化为与文本嵌入同维度的向量,替换 Prompt 中占位符的嵌入,实现文本与图像特征的联合引导。
(c) 异常感知三元组损失(Anomaly-aware Triplet Loss)
原始 CLIP 对工业异常场景的跨模态对齐能力有限。为此,论文设计了异常感知三元组损失:以异常文本嵌入 为锚点,对应异常图像嵌入为正样本 ,其余异常图像嵌入为负样本 ,通过对比学习微调 CLIP 编码器,使其注意力集中于异常特有区域:
(d) 保真度梯度精化模块(Fidelity Gradient Refinement Module)
在未施加显式控制时,扩散模型的先验会"纠正"参考异常,使生成结果偏向模型见过的常见异常模式,而非忠实还原参考图像中的异常。该模块在每个去噪步骤中计算保真度损失 (生成潜变量与编码后的参考异常在掩码区域的 MSE),并沿梯度方向修正潜变量,控制参数 调节保真度与合理性之间的权衡:
注意力图对比
上图对比了 CLIP 微调前后第 24 层自注意力图的变化。微调前,CLIP 的注意力图杂乱无序,对异常区域没有明显的聚焦;经过异常感知三元组损失的对比训练后,注意力图显著集中于异常所在区域,说明微调后的 CLIP 对工业异常具有更强的感知与定位能力,有效缩小了跨模态检索中的语义鸿沟。
可信度与保真度的视觉对比
上图展示了不加保真度梯度精化模块(高可信度/低保真度)与加入该模块(高保真度)时生成结果的对比。以瓶子目标为例:参考异常为黄色污渍,但由于扩散模型在训练中大量接触过带有黑色孔洞异常的瓶子,未加控制时模型倾向于自动将参考中的黄色污渍"修正"为黑色孔洞(更高可信度)。加入保真度梯度精化后,生成的异常被强制对齐到参考图像,最终生成的异常与黄色污渍高度一致(更高保真度)。该模块有效解决了扩散模型先验导致的语义漂移问题。
生成效果展示
上图展示了生成结果,四列分别展示了Inpainting Mask、背景物体图像、参考缺陷图像、最终生成图像。与只能在 MVTec-AD 已有异常类型上重复生成的 Anomaly Diffusion 相比,Anomaly Agent 可基于历史异常图库中的参考,在更广泛的异常类别上生成高质量合成样本,充分验证了框架在异常多样性上的显著优势。
论文结论
工业异常检测面临真实异常数据极度稀缺的困境。传统生成方法只能针对已知异常逐类建模,无法生成生产前从未见过的异常,且数据无法跨产品复用。本论文提出了解决方案——Anomaly Agent 框架:利用 LLM + RAG 推断目标产品的潜在异常类型,再通过异常感知 CLIP 三元组对比学习从历史异常图库中精准检索匹配的视觉参考,实现"按名索图"。另外,以检索到的参考异常为条件,驱动统一扩散模型在目标产品图像上合成对应异常;保真度梯度精化模块克服扩散先验导致的语义漂移,可信度-保真度控制模块由 VLM 自动选出最优合成样本用于下游训练。该方法无需为每种异常类别单独训练生成模型;可在生产前预生成多样化异常;充分复用历史异常数据。
没有评论:
发表评论