2025年5月27日星期二

突破视觉推理瓶颈 I 中科大联合港科大共同提出 Pixel Reasoner : 让 AI 模型学会"放大镜式"思考。

点击下方卡片,关注"AI生成未来" 导读当预训练阶段的 Scaling Laws 逐渐趋于饱和,Chain-

点击下方卡片,关注"AI生成未来"


 

导读

当预训练阶段的 Scaling Laws 逐渐趋于饱和,Chain-of-Thought 推理机制的引入显著提升了大语言模型在多个 benchmark上 的表现。

近期,这一推理范式被广泛迁移至视觉-语言模型架构中。然而,正如笔者在上一篇文章 为什么将 Reasoning 应用到 VLMs 效果总是差强人意?中所指出的,目前主流的推理型 VLMs 大多仅在早期阶段提取视觉特征。尽管这些模型能够生成语义连贯的文本输出,但其中间推理状态与真实视觉证据之间往往存在显著的语义鸿沟——本质上,这类模型仍主要依赖先验知识进行"幻觉式"的自回归生成,而非基于视觉对齐的证据式推理。

这一主流范式面临的核心问题在于:缺乏对视觉信息的深入建模与有效利用。GRIT[1] 工作通过在思维阶段显式引入"包围框"级视觉信息,并结合精心设计的奖励机制,在一定程度上缓解了推理过程中的语义-视觉鸿沟。

今天介绍的 Pixel Reasoner[2] 则从另一角度切入,延续相似的动机,尝试以更细粒度的像素级视觉感知作为推理基础,并引入"好奇心驱动"的强化学习机制,激励模型在推理过程中主动探索与视觉证据强关联的区域,实现更具视觉对齐性的推理路径构建。。

Illustration of Pixel-Space Reasoning
Illustration of Pixel-Space Reasoning

如图所示,Pixel Reasoner 的核心思想是希望能够激发模型可以主动进行视觉操作来辅助推理,即让模型不再满足于"看图说话",而是能真正地"上手操作"图片和视频,比如放大图片(Zoom-in)挑选关键视频帧(Select-Frame),从而进行更深入、更可靠的推理。


Reasoning 能力的本质:基础能力的系统性激活

近期,有个别研究认为 RL 方法其实并没有提升模型的表达能力,只是以一种"炫技"的方式重新包装输出。

因此,在进入今天的主题之前,我想先就这一观点简单谈谈。

首先,必须承认的是,推理能力在很大程度上确实依赖于预训练基模所习得的事实性知识和语言能力——这一点无需回避。然而,将"推理"视为单纯的"换一种表达输出的形式"是否合理呢?

笔者认为,推理的核心价值在于系统性地激活和组织基模中潜在的能力。预训练阶段虽然赋予了模型丰富的知识储备和表征能力,但这些能力往往以隐式和碎片化的形式存在。

CoT Reasoning 机制通过结构化分解,将复杂任务拆解为可处理的子问题,使模型能够实现以下能力:

  • • 有序地激活相关知识,避免在直接生成时发生知识干扰;
  • • 建立明确的多步推理链条,减少逻辑跳跃与不一致;
  • • 通过中间验证识别并修正推理错误;
  • • 将已知概念进行组合,处理未见过的问题情境。

更为关键的是,后训练优化过程实质性地重构了模型的行为模式。通过引入 RL 方式,模型学会了在表征空间中建立更加结构化和系统性的推理路径。这种重构不仅改变了生成的表面形式,更重要的是调整了隐状态的组织方式与注意力机制的聚焦模式。

因此,虽然推理能力确实受到基模能力上限的制约,但通过系统性激活与结构化组织所释放的问题求解潜力,这绝不是单纯的"表达方式的调整"。

为什么需要"像素空间推理"?

想象一下,你正在玩一个复杂的"大家来找茬"游戏,或者需要从一段监控视频里找出某个关键细节。如果不能放大图片局部,或者快进快退、逐帧查看视频,是不是会非常困难?

传统的 VLMs 在进行推理时,很多时候依赖的是一种纯文本的思考链。这种方式虽然能模仿人类的逻辑步骤,但在面对视觉信息极其丰富的任务时,往往显得力不从心。模型可能只是对整个图片/视频有个模模糊糊的整体印象,却无法聚焦到决定答案的关键细节上。

因此,作者认为,要解决这个问题,就必须赋予模型一种 "像素空间推理"(Pixel-Space Reasoning)的能力。这意味着:

  • • 模型不再只是被动地接收视觉信息。
  • • 模型能够主动地、有选择地调用一系列预设的"视觉操作"(Visual Operations)。

通过这些操作,模型可以直接探查、审问、并从视觉证据中推断信息,从而大大增强推理的保真度和准确性。

Pixel Reasoner 是如何"上手操作"的?

Pixel Reasoner 的核心思路,是让模型在推理过程中,能够像调用工具一样使用视觉操作。目前,论文主要提到了两种操作:

  1. 1. ZOOM-IN (针对图片): 模型可以指定一个边界框,然后系统会将这块区域放大,作为新的视觉输入供模型进一步分析。这对于识别微小物体、文字或者理解复杂场景的局部细节至关重要。
  2. 2. SELECT-FRAMES (针对视频): 模型可以从一段视频中选择特定的几帧进行仔细观察。这对于理解视频中的动态事件、捕捉短暂出现的关键信息非常有帮助。

那么,问题来了,模型是如何决定何时使用以及如何使用这些操作的呢?

它会在生成思考文本的过程中,输出一个特殊的指令,来调用这些视觉操作。这个指令通常包含了操作的名称和必要的参数(比如ZOOM-IN的边界框坐标,或者SELECT-FRAMES的帧索引)。

我们来看一个论文中的例子,帮助大家理解这个过程:

场景: 一张信息密度极高的漫威电影宇宙信息图。
问题: "托尼·斯塔克在哪部电影里创造了盔甲来拯救生命?"

图片

Pixel Reasoner可能的思考与操作流程(简化版):

  1. 1. 初步分析全局图像: 模型首先看到的是整张信息图。它可能会识别出这是一张关于漫威电影时间线、角色和关键事件的图表。
  2. 2. 定位与初步操作: 模型理解到问题核心是"托尼·斯塔克创造盔甲"。它可能会先尝试定位包含这些关键词的区域。假设它第一次ZOOM-IN操作,放大到了图表的某个标题区域,发现信息不足。

    • • 模型输出:<visual_operation>{"name": "crop_image", "arguments": {"bbox_2d": [标题区域坐标]...}}</visual_operation>

    • • 系统返回:裁剪后的标题区域图片。
  3. 3. 基于新信息进行调整和二次操作: 模型分析新图片,意识到需要更精确的定位。它可能会在原图中重新寻找"Iron Man"或"Tony Stark"相关的视觉线索,然后进行第二次ZOOM-IN,这次准确地放大了包含"Iron Man"起源故事的那一小块。

    • • 模型输出:<visual_operation>{"name": "crop_image", "arguments": {"bbox_2d": [钢铁侠起源区域坐标]...}}</visual_operation>

    • • 系统返回:裁剪后的钢铁侠起源细节图。
  4. 4. 分析关键细节并得出结论: 在这个放大的局部图中,模型可以清晰地看到文字描述:"Tony Stark creates an armor to save his life, then evolving it into Iron Man.",以及旁边的年份"2008"。
  5. 5. 最终回答: "钢铁侠 (Iron Man)"。

通过这种"观察-操作-再观察-再推理"的迭代过程,Pixel Reasoner能够逐步聚焦到问题的核心,获取到纯文本CoT难以捕捉的细粒度视觉信息。

Pixel Reasoner 的训练秘笈

教会模型有效地使用这些新的视觉操作,可不是一件容易的事。作者发现,模型在学习初期会遇到一个 "学习陷阱" (Learning Trap):

Illustration of the Learning Trap Problem
Illustration of the Learning Trap Problem
  • • 新手上路,容易犯错: 模型刚开始使用这些视觉操作时,还很不熟练,经常会选错区域、选错帧,导致操作结果不理想,得到负面反馈。
  • • 舒适区依赖: 相比之下,模型更擅长它已经掌握的纯文本推理,更容易通过这种方式得到正确的答案(或者至少看起来正确的答案)。
  • • 结果: 模型会倾向于"绕过"这些用起来不顺手的视觉操作,退回到它更熟悉的纯文本推理模式。即使任务明明需要细致的视觉观察,它也可能"假装看不见"。

为了克服这个问题,本文采用了一种巧妙的 两阶段训练方法

阶段一:打好基础——热启动指令微调

The Data synthesis pipeline
The Data synthesis pipeline

首先,我们先让模型熟悉这些视觉操作的"语法"和基本用法,为后续的强化学习打下坚实的基础。

具体地,使用强大的教师模型(如GPT-4o)生成大量的"专家轨迹"作为监督数据,对 VLMs 进行微调。这些轨迹展示了如何正确地使用视觉操作来解决问题。

这里面涉及到一个关键创新:合成"包含错误的自我纠正轨迹" (error-induced self-correction trajectories)。

图片

这一步其实非常关键,因为我们不仅仅是教模型"怎么做对",还要教模型"做错了怎么办"。比如,轨迹中会故意包含一些不理想的视觉操作(如选了一个无关的区域放大),然后展示模型是如何意识到错误并进行纠正,最终找到正确信息的。这种训练能显著增强模型在后续强化学习阶段的鲁棒性和探索意愿。

最后,只需要在训练数据中混合需要像素空间推理的轨迹和只需要文本推理的轨迹,帮助模型学会判断什么时候需要"动手",什么时候"动脑"就足够了。

阶段二:激发潜能——好奇心驱动的强化学习

在模型具备基本操作能力后,我们需要进一步鼓励它主动探索和使用这些视觉操作,从而彻底摆脱"学习陷阱"。

图片

如上述公式所示,本文的核心机制是设计了一个包含 好奇心奖励 (Curiosity Bonus) 函数。其基本逻辑是,除了任务最终答案是否正确的"外部奖励"外,还引入了一个"内在奖励"来激励模型的探索行为。


具体地,如果模型在处理某个问题时,它使用像素空间操作的"频率"(论文中称为 RaPR - Rate of Pixel-space Reasoning)低于一个预设的阈值 H(比如,希望它至少在30%的情况下尝试使用视觉操作),并且在当前这次推理中它确实尝试了像素操作,那么就给它一个正向的奖励。这就像在鼓励一个害羞的孩子多尝试举手发言。


其次是效率惩罚 (Efficiency Penalty)。同时,为了防止模型"为了操作而操作",如果一次推理中视觉操作的次数超过了一个上限 N(比如,不希望它一次搞七八个视觉操作),就会有一个小的惩罚,来约束模型的行为。


这种奖励机制能够动态地调整。当模型对视觉操作还比较"生疏"、使用频率较低时,好奇心奖励会鼓励它多尝试;当它已经能熟练使用,并且使用频率达标后,这个额外的奖励就会自然减弱,让模型更专注于任务本身的完成度。

通过这种"先教学、再激励"的两阶段策略,Pixel Reasoner 有效地引导模型掌握并乐于使用这些强大的视觉交互能力。


综上,我们深入分析下 Pixel Reasoner 的一些独特亮点与优势。相比于一些只在文本层面进行 CoT 推理,或者只做简单视觉锚定(比如 GRIT 画框方式)的方法,Pixel Reasoner 展现出了一些独特的优势:

  1. 1. 更主动、更深入的视觉交互: Pixel Reasoner不仅仅是"看到哪里",而是能"操作哪里"。通过 Zoom-in 和Select-Frames,它可以获取到传统方法难以触及的深层、细粒度视觉信息。
  2. 2. 工具使用的潜力与可扩展性: 目前的视觉操作还比较基础,但这个框架具有很好的可扩展性。未来可以集成更多、更复杂的视觉"工具",例如调用外部的目标检测API、图像分割模型、深度估计模块,甚至执行更复杂的图像编辑操作等。这为构建更强大的"具身智能"提供了可能。
  3. 3. 针对学习难题的有效解决方案: "学习陷阱"是训练这类具备新能力的模型时普遍存在的问题。Pixel Reasoner提出的两阶段训练法,特别是"包含错误的自我纠正轨迹"的SFT和"好奇心驱动"的RL,为如何有效引导模型学习和探索新技能提供了宝贵的经验。

最后,我们可以简单的比较下它与 GRIT 方法之间的异同。首先,两者的动机都致力于提升 VLMs 视觉推理的透明度和可靠性,让模型的思考过程不再是"黑箱"。

GRIT的核心是模型在文本思考链中生成 Bounding Box 来"指明"它关注的视觉区域,这个 BBox 本身是模型生成文本的一部分。而 Pixel Reasoner 则是模型生成一个明确的"指令"去调用一个外部的、预定义的视觉操作函数(这个函数也可能需要BBox作为参数),然后获取这个操作返回的新的视觉信息。Pixel Reasoner 的"工具调用"感更强。

另外一方面就是关于奖励设计的侧重: GRIT 的奖励相对直接,主要围绕格式和答案的准确性。Pixel Reasoner 则为了克服"学习陷阱",设计了更侧重于"行为引导"的好奇心奖励。

实验效果证明"动手能力"的重要性

论文在多个具有挑战性的视觉问答基准上进行了充分的实验,包括V*Bench(高分辨率图像理解)、TallyQA-Complex(复杂计数)、InfographicsVQA(信息图理解)和MVBench(视频理解)。

图片

结果非常亮眼:Pixel Reasoner (7B模型) 在这些基准上均取得了不错的成绩,在某些任务上甚至超过了一些参数量远大于它的闭源模型。

图片

如上图表所示,消融实验清晰的显示出了,如果去掉"好奇心驱动的RL"阶段,或者在"热启动指令微调"阶段不使用"包含错误的自我纠正轨迹",模型的性能都会出现显著下降。这充分证明了 Pixel Reasoner 中这些关键设计对于提升模型"像素空间推理"能力的极端重要性。

实测分析

图片

以下 case 是通过官方提供的Demo[3]测试的,第一次测试的结果是正确的,不过再调用一次测试出来的结果如下:

图片

这个案例清晰地暴露了这类"具身化思考"或"像素空间推理"模型在实际应用中可能遇到的一些核心问题。我们可以先简单的把这个 Pixel Reasoner 的交互过程分解成几个步骤,一步步看问题出在哪:

  1. 1. 初始图像分析

The image shows a picturesque street lined with white buildings, likely part of a quaint town or village. The architecture suggests a Mediterranean or Spanish influence, with tiled roofs and whitewashed walls. There are planters along the walkway, adding greenery to the scene...

Cueva de la Tea: 西班牙语,可简单译为
Cueva de la Tea: 西班牙语,可简单译为"松脂木洞穴餐厅"

第一步的文本描述还不错,模型准确地识别了场景(街道、白色建筑),知道定位并识别出了右侧的餐馆名称(虽然OCR部分识别不完全正确)。这说明模型对原始图像的全局理解是基本到位的,并且具备一定的OCR和常识关联能力。Not Bad!

  1. 2. 模型意图

Now I will zoom in to look clearer at the target restaurant.

第二步展示的这个意图是完全正确的,符合 Pixel Reasoner 的设计理念——当需要更细致信息时,主动进行视觉操作。

  1. 3. 视觉操作执行

Executing Visual Operations ... @crop_image('bbox_2d': [495, 237, 568, 356], 'target_image': 1)

第三步这是最核心的失败点。模型想要放大"目标餐馆",但它给出的坐标显然完全偏离了目标。从原图可以看出餐馆位置应该是位于街道右侧,相对靠下的位置。而模型裁剪出来的结果(蓝天白云和一点树梢)表明,这个框定位到了图像中上部的天空区域。

  1. 4. 对操作结果的分析

Analyzing Operation Result ... @region(size-473x419)"
The cropped image focuses on the sky with clouds, without any visible details of the restaurant or its surroundings. This cropped section does not provide enough context about the type of restaurant.

这一步模型展现了一定的"自知之明"。它正确地识别出自己裁剪出来的图片是天空和云,并且判断出这对于分析餐馆类型毫无帮助。这一点是值得肯定的,说明模型至少没有"指鹿为马"。

  1. 5. 输出最终答案

\boxed{Cafe}

本来这里预期的行为是模型会自我反思并重新提取 RoI,因为在初始分析中,模型已经大体分析对了,它自己也承认了 Zoom-in 操作失败,没有获取到任何关于餐馆类型的新信息。

那么,这个"Cafe"的答案是从哪里来的呢?完全没有任何证据支持,这其是便是一种典型的幻觉。模型在无法获取有效信息,或者推理链中断后,可能会倾向于给出一个"看起来合理"的猜测,而不是承认"我不知道"或者基于已有的、更可靠的初始信息作答。


分析失败的原因我觉得可能有以下几点:

  • • 推理链断裂后的鲁棒性差: 当关键的视觉操作失败后,模型没能有效地回退或修正其推理路径。
  • • 过度自信或缺乏不确定性表达: 模型没有表达出由于操作失败导致的不确定性,而是强行给出了一个具体答案。
  • • 可能受到了训练数据分布的影响: 如果训练数据中"Cafe"作为餐馆类型出现的频率较高,模型在不确定时可能会倾向于这个高频答案。

从这个例子我们也能看出视觉定位能力对于 VLMs 来说仍然是硬伤,如果模型连想看的地方都找不准,后续再精妙的"像素空间推理"也无从谈起。此外,理想情况下,当模型发现Zoom-in的结果不对时(它确实发现了),它应该能够尝试用不同的BBox再次Zoom-in,如果多次尝试失败,应该回退到初始的、更可靠的全局分析结果(比如它一开始识别的"restaurant");又或者明确表示由于无法获取足够细节,不能确定餐馆的具体类型。

总的来说,要让这类具备"像素空间推理"能力的模型真正强大且可靠,首先必须夯实其基础视觉能力,确保模型具备强大的目标检测、定位和分割等底层技能,这是所有精细操作得以准确执行的前提。

其次,在强化学习的奖励设计上需要更加精细化,不仅要奖励最终任务的成功,或许这里可以考虑引入对"操作准确性"(例如Bounding Box与目标的交并比IoU)的直接奖励,并对模型在操作失败后能否有效应对(如进行合理的纠错或表达不确定性)给予激励。

再次,训练数据的多样性和挑战性至关重要,正如Pixel Reasoner论文中所强调的"包含错误的自我纠正轨迹",实践表明,模型需要接触到更多种类、更复杂的失败场景及其正确的应对方式,才能在真实应用中展现出足够的鲁棒性。

最后,引入"不确定性"建模机制是提升模型可信度的关键一步,模型应学会在信息不足或操作效果不佳时,明确表达其不确定性,而不是像例子中那样强行猜测,从而避免产生毫无依据的幻觉输出。

思考与展望

Anyway, 这项工作也着实给我们带来了一些启发:

  1. 1. 从"被动观察"到"主动探索"的转变: 这代表了 VLMs 与视觉世界交互方式的一个重要进步。未来的多模态模型可能不再仅仅满足于分析人类喂给它的静态图片或视频,而是能够根据任务需求,主动决定"我要看哪里"、"我要怎么看",甚至在更广阔的未来,控制传感器去主动收集信息。
  2. 2. "工具学习"的巨大潜力: Pixel Reasoner 为 VLMs 集成和使用外部"工具"提供了一个非常好的范例。随着视觉工具库的不断丰富(从简单的缩放、帧选择,到复杂的物体识别、关系推理、甚至物理仿真),VLMs 解决现实世界复杂问题的能力将得到前所未有的增强。
  3. 3. 高质量、有针对性的训练数据是王道: Pixel Reasoner 再次强调了数据工程在训练强大AI模型中的核心地位。特别是"包含错误的自我纠正轨迹"这种精心设计的数据,对于引导模型学习复杂技能、提升鲁棒性至关重要。这远比简单堆砌数据量要有价值得多。

当然,本文方法也只是迈出了探索"像素空间推理"的一步。未来还有很多值得研究的方向:譬如如何设计一套更通用、更高效的视觉操作集?如何让模型在更开放、更多变的环境中泛化这些操作能力?如何更有效地平衡探索与利用,避免模型陷入新的"操作陷阱"?

总而言之,笔者相信多模态大模型不再是只会"耍嘴皮子"的语言模型,而是真正能够"手眼协调",深入理解和操纵视觉世界的智能体。这条探索之路虽然充满挑战,但每一点进展都让我们离通用 AGI 的梦想更近一步。

引用链接

[1] GRIT: https://arxiv.org/abs/2505.15879
[2] Pixel Reasoner: https://arxiv.org/abs/2505.15966
[3] Demo: https://huggingface.co/spaces/TIGER-Lab/Pixel-Reasoner


致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

 

没有评论:

发表评论

五月复盘:步履不停,向内扎根

步履不停,向内扎根   点击上 方 蓝字  关注艾康👆 获取更多实用 AI 工具/AI 玩法,一起 AI 创富~ 今天端午节,祝大家端午安康呀,大家今天都有吃粽子吗? 今天是五月的最后一天,也是我来到北京的第二个月的月底。 时间过得真快,快到很多时候来不及细细品,日子就推着...