👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:CoV团队
开源仓库:https://github.com/ziplab/CoV
arXiv链接:https://arxiv.org/abs/2601.05172
亮点直击
CoV 框架:首创"视链提示"(Chain-of-View, CoV),一个免训练、测试时(test-time)的具身问答智能体框架。 主动视觉推理:将传统被动的视觉语言模型(VLM)转变为主动的视点搜索者,使其能够像人类一样通过移动视角来探索环境。 验证测试时扩展性(Test-Time Scaling):通过增加推理时的"行动预算"(即允许模型多走几步、多看几次),可以持续提升模型性能,而无需重新训练模型。 显著的通用提升:该方法是模型无关的(Model-Agnostic),在多个主流 VLM(如 GPT-4o, Gemini, Qwen)上均取得了显著的性能提升。
从宇树机器人登上春晚舞台,到首届"世界人形机器人运动会"火遍全球,"具身智能"可谓是今年AI领域最出圈的关键词之一。人工智能正大举从数字领域迈向物理现实,在这一背景下,具身问答任务(EQA) 显得愈发重要。EQA任务的核心挑战在于,智能体必须像人类一样,在复杂的物理空间中定位关键信息,并生成准确答案。
传统方法往往依赖有限且视角固定的图像输入,这使得VLM难以获取足够多与问题相关的视觉线索。在复杂的具身问答场景中,答案并非一目了然,大多数问题都需要经过多步推理才能解决。
例如,面对"哪里可以找到汽水?"这样的问题,场景中可能并未直接出现汽水。智能体不仅需要调用"汽水通常存放在冰箱里"这类常识知识,还需自主规划路径,在环境中搜寻冰箱等关联物体。这类问题的解答,依赖VLM在充分、相关的上下文信息中进行连续推理,而无法通过单次的生成步骤来完成。
研究人员提出了一种多步推理的具身问答智能体框架:Chain of View(CoV),旨在实现从被动观察到迭代式自主探索的转变。应用CoV框架后,模型整体性能在最新的EQA基准测试上平均提升了10.82% 。其中,Qwen3-VL-Flash模型提升达到了13.62% 。
粗粒度筛选,快速确定视角锚点
CoV的整体流程包含两个阶段:粗粒度视角筛选(Coarse-grained View Selection)与细粒度视角调整(Fine-grained View Adjustment)。
在实际场景中,智能体获取的视觉输入通常来源于一段连续的视频片段。这些原始帧往往包含大量冗余信息。对于任何一个具体问题,通常只有少数几帧图像与其相关。而过多的无关视觉信息,反而会干扰模型的判断。
为此,CoV引入了视角粗选智能体,其核心任务是从原始可用的视角中,主动筛选出与当前问题最相关的关键视角,从而为后续的推理步骤提供与问题强相关的视角基础。
细粒度调整,精确锁定问题相关视角
以往的方法通常将智能体置于被动,它只能从一组预先给定的、有限的固定图像中寻找答案。这种"一步生成"的模式,放弃了进一步搜寻相关环境细节的可能性,也因此限制了模型进行深度、多步思考的能力。
受思维链(CoT)启发,研究人员提出细粒度的视角调整机制。该方法能为模型动态补充与问题相关的环境信息,让智能体在持续的观察与思考中逐步逼近答案。对粗粒度视角筛选阶段得到的视觉锚点,VLM会规划并执行一系列视角调整动作,包括平移、旋转以及在不同视角间切换三类操作。
这一系列视角调整使得智能体能够主动地、有目的地调整其观察位置与朝向,从而获取对解答问题至关重要的环境细节,提升EQA表现。 当智能体认为已经获取到足够的信息回答问题时,停止视角调整,并基于精心构建的视觉上下文给出最终答案。
刷新EQA基准测试
研究人员在包括OpenEQA、ScanQA、SQA3D等最新的EQA基准测试上进行了大量实验。在反映生成文本与人类回答相似度的CIDEr指标上,CoV得分达到116;在ScanQA数据集上的首次回答准确率(EM@1)也达到31.9%。应用CoV框架后,VLM整体性能在OpenEQA测试基准上平均提升了10.82%。
强大的Test-time Scaling性能
研究人员还发现,智能体自主行动步数越多,获取的信息越多,EQA任务的表现也会呈现上升趋势。在不限制行动步数的情况下,绝大多数问题所涉及的行动步数偏少,集中在1到3步。随着动作步数的增加,模型在相应问题上的得分呈现出明显的上升趋势。
通过在提示词中限制VLM的最小行动步数,与仅允许单步行动的设置相比,提升动作步数上限后VLM性能平均提高了2.51%。这一结果表明,多步推理能有效增强智能体在具身问答任务中的表现。CoV无需额外训练,仅通过增加行动步数即可实现性能增益,展现出显著的"无需训练,测试扩展"潜力。
总的来讲,CoV是一个多步推理具身问答Agent框架,能允许VLM自主获取更多和问题相关的视角。这项工作有效提升了VLM在EQA任务上的表现,并且具备test-time scaling的潜力,为通向在复杂空间中行动、适应并探索的具身智能系统,提供了新的可能性。
参考文献
[1] CoV: Chain-of-View Prompting for Spatial Reasoning
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论