2025年9月27日星期六

NeurIPS 2025 Spotlight! 当内部地图发生扭曲时: 为什么可识别的表征对负责任的人工智能至关重要?

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Yichao Cai等

解读:AI生成未来

图片

文章链接:https://arxiv.org/pdf/2504.10143
Git链接:https://github.com/YichaoCai1/crossmodal_misalignment

表征学习中被忽视的课题:为何我们需要重新思考它

当代人工智能模型取得的惊人成就固然值得称颂,但其"差之毫厘"的失败却揭示出另一番图景:视觉标注模型会固执地指认不存在的物体;图像分类器一见到雪景总把哈士奇错分成狼;视觉语言模型经常依赖"虚假"的关联。这些错误很少在基准测试中暴露,却暴露出扭曲的内在认知图谱——那些无法真实反映客观世界的特征表征。

单纯扩大数据量和计算规模并不能保证表征的忠实性。当表征暗中混淆或遗漏关键语义信息时,模型的可解释性、公平性与鲁棒性都将受损。要构建负责任且资源高效的人工智能,我们需要可辨识的表征:即与现实世界因素保持唯一稳定对应的潜在特征。

图片

可辨识表征学习:内涵与意义

可辨识性是指:在给定充足数据与合理假设(即关于潜变量如何生成数据的信念)的前提下,学习到的特征能够还原真实的潜变量(如身份、形状、色彩、姿态等),仅剩下可接受的细微模糊性。

其重要性体现在:

  • 可解释性与公平性:稳定的表征通道(或神经元)让研究者与审计者能洞察编码内容,揭示有待修正的偏差。
  • 鲁棒性:当风格、光照发生变化、或领域迁移时,稳定的可辨识表征不会漂移。
  • 资源节约:稳定且语义明确的特征减少昂贵的重新训练与数据采集成本。

由于可辨识特征具备稳定性,团队可降低再训练与数据采集开支;审计流程更简易(公平性);特征语义保持不变(可解释性)。

我们的路径:语言作为归纳线索及其挑战

实现可辨识性需注意前提条件。数据压缩存在多种路径:自监督预训练任务的设计、学习目标设定、模型能力的瓶颈、训练动态以及数据集的特性,这些方面共同塑造表征学习优化的"路径",从而决定最终获得的表征形态。不同研究强调的重点不同,我们则聚焦在数据方面。将数据置于核心地位,是因为无论算法如何演进,知识始终源于数据本身。

我们特别重视语言作为从图像等非结构化模态中学习表征的归纳线索。由人类创造并承载着文化与概念的自然语言,提供现成的思维框架。以文本为指导具有显著优势,CLIP类模型中视觉特征的高度有序化便是明证。但基于CLIP的特征存在公认缺陷:幻觉现象以及对伪相关性的脆弱性。更重要的是,许多当代视觉语言系统(如LLaVA类VLM、多模态大模型及文生图生成器)均构建于CLIP编码器之上,可能继承这些固有弱点。

我们当前的探索:对训练数据中"文本描述噪声"的建模及其影响

研究动机

大规模多模态学习(以语言作为辅助模态)通常依赖网络级的图像-描述语料库。这类数据存在噪声:描述文本会遗漏细节或错误表述。在我们NeurIPS 2025的论文中,我们提出:能否正式建模这些噪声模式?何时这种不对齐会产生危害?又何时能将其转化为鲁棒性优势?

理论主张

我们通过建模跨模态共享的潜在语义变量和特征的噪声形式来描述图像文本对的潜在生成过程 (data-generating process)。描述文本不对齐存在两种偏差模式:选择偏差(描述文本遗漏因子)与扰动偏差(描述文本随机错误描述因子)。

图片

定理4.1(非正式表述):对比式多模态学习仅能识别跨模态共享的无偏差语义子集;在适当约束表征维度的条件下,被遗漏或损坏的因子将被排除,且模态特定噪声会被丢弃——这与潜在的因果依赖关系无关。

直观而言,对比模型只能对齐双模态一致共享的内容。即使某些语义细节在现实世界中具有重要意义,若其存在缺失或随机扰动,模型仍无法习得。此外,若表征维度设置过度宽松且缺乏有效的稀疏性正则,额外的容量可能会非预期地编码不可辨识的噪声信息。

实践关键启示

由此衍生出两条实践启示:

确保描述忠实性以覆盖关键语义:大规模预训练中出现幻觉,往往是因为模型推断出了描述文本遗漏或扭曲的语义,导致关键语义缺失。基础模型优先考虑泛化与复用,因此忠实描述至关重要。当描述覆盖足够全面时,测试案例基本能保持分布内状态;否则模型将嵌入非事实或噪声信号,引发不可辨识性及下游幻觉。在大规模对比预训练中,语义缺失/扰动⇒不可辨识性(未获忠实描述的组件语义)⇒幻觉风险;可针对性剔除干扰因子。

利用可控错位增强鲁棒性:刻意调整易受攻击的组件(如风格线索),能训练模型忽略干扰因子——即那些因伪相关或环境多样性不足而不希望模型依赖的信号。(具体实施方案请参见我们ECCV 2024的论文:https://yichaocai.com/clap_paper.github.io)

图片

实验与证据

仿真实验:完美还原无偏差语义;被遗漏或扰动的因子不可恢复。 可控的图像文本数据集:即便因子间存在未知的因果关联,实证验证仍然验证了模块可辨识性。 OpenCLIP案例研究:描述文本中罕见的概念(选择偏差的典型表现)其表征质量显著低下; 值得注意的是,轻度错位虽保持表层性能稳定 (由于优化过程的渐进误差等因素),却可能导致潜在认知图畸变——我们的模型精准预测了这些效应。

图片

结束与呼吁

可辨识性并非可有可无,而是构建可靠、可解释 AI 系统的重要基础。我们在 NeurIPS 2025 的工作与这一领域的相关探索方向一致,期望能为学术界与工业界提供一些思路与参考。我们建议在实践中关注并审视数据中的偏差,尝试利用语言引导策略,并探索可控的表征错位以提升模型鲁棒性。也欢迎研究者们引用、扩展或质疑我们的发现,共同推动未来 AI 系统的内在认知结构更贴近真实世界,以及符合人类的价值导向。


参考文献

[1] On the Value of Cross-Modal Misalignment in Multimodal Representation Learnin

 [2] https://yichaocai.com/posts/identifiable_representation_learning.html

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

NeurIPS 2025! 一个LoRA实现秒级万能图像编辑?浙大哈佛图像编辑模型GitHub狂揽2k星!

点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 作者:Zechuan Zhang等 解读:AI生成未来 在五一假期期间,Hugging Face上出现了一款爆火的图像编辑模型,号称用一个LoRA就可...