2026年3月16日星期一

清华美团3DThinker:无需3D标注,让VLM学会空间推理,7大基准超越现有方法

清华美团联合提出3DThinker框架,让多模态大模型在推理中自动生成3D心智表征,无需3D标注或外部工具。通过双阶段训练,在MindCube-Tiny等7大空间推理基准上全面超越现有方法,为AI研究者与开发者提供新思路。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

一句话总结:输入多视角图像+问题 → 模型在推理中自动生成3D心智表征 → 输出精准空间推理答案,3DThinker首次实现无需3D标注、无需外部工具的"思考即想象"能力。

多模态大模型(VLM)这两年进步神速,但在空间推理任务上始终存在一个关键瓶颈:

  • 看到两张房间照片,问"沙发在电视左边还是右边",模型经常答错
  • 给无人机多视角图像,问"前方障碍物距离",模型难以准确估算
  • 现有方法要么依赖纯文本推理(丢失几何信息),要么需要深度图/点云等额外输入(部署复杂)

人类怎么做空间推理?我们会在脑中快速构建3D场景的"心理图像",然后基于这个心智表征进行判断。但现有VLM缺乏这种"脑内建模"能力。 今天介绍的由清华联合美团提出的一个创新的框架3DThinker,该工作首次提出3D心智表征驱动的空间推理框架,让VLM在推理过程中自动生成3D潜在表示,无需任何3D标注或外部工具,在7大空间推理基准上全面超越现有方法。图片

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2510.18632
  • 代码:https://github.com/zhangquanchen/3DThinker

unsetunset论文介绍unsetunset

图片

尽管多模态大模型在多个领域取得了显著进展,但它们在处理和理解3D空间关系时仍面临巨大挑战。传统方法受限于纯文本或2D视觉线索的推理能力,难以准确提取图像中的几何信息。为此,研究团队提出了3DThinker框架,旨在通过内蕴地"想象"三维场景,提升多模态大模型的空间推理能力。

unsetunset方法概述unsetunset

图片

3DThinker采用了一种双阶段的训练策略,以实现模型在推理过程中的3D空间想象:

监督训练阶段(S1):

  • 数据构造:构造携带3D特殊标记(special token)的推理链(Chain-of-Thought, CoT)数据。
  • 特征对齐:通过投影器(projector)将VLM生成的3D潜在特征(3D latent)映射到3D基础模型(如VGGT)的潜空间,确保两者特征对齐。
  • 损失函数:结合3D潜在特征对齐损失和文本交叉熵损失,保证模型在提取几何信息的同时保持自然语言的连贯性。

强化训练阶段(S2):

  • 结果信号优化:在仅依赖结果信号的情况下,优化整个采样轨迹,包括其中的3D潜在特征。
  • 奖励设计:设计3D潜在特征对齐奖励、结果二值化奖励和格式奖励,确保模型在RL采样过程中不丢失几何表达。
  • 优化算法:采用GRPO(Group-relative Policy Optimization)算法进行优化,提升模型的整体性能。
图片

unsetunset实验unsetunset

图片

为了验证3DThinker的有效性,研究团队在多个空间理解基准上进行了广泛实验:

  • 数据集:包括MindCube-Tiny、Ego3D-Bench、VSI-Bench、SPBench、CV-Bench、SPAR-Bench和MMSI-Bench等。
  • 基线模型:对比了多种先进的视觉语言模型(VLMs),如Qwen2.5-VL系列、InternVL3系列等。图片

在MindCube-Tiny上,3DThinker相比基线模型整体提升了51.8%到108.8%。在Ego3D-Bench上,提升了18.1%到36.9%。在自制的大规模训练数据上,3DThinker相比之前的SOTA方法有显著提升,如Qwen2.5-VL-3B提升了10.8 pp,Qwen2.5-VL-7B提升了16.3 pp。

图片

unsetunset结论unsetunset

3DThinker通过双阶段的训练策略,成功实现了多模态大模型在推理过程中的3D空间想象。实验结果表明,该方法在多个空间理解基准上均取得了显著提升,验证了其有效性和普适性。此外,3DThinker还具备一定程度的可解释性,通过设计的投影器可以直接恢复出3D表示,使得模型推理过程更加透明。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

清华美团3DThinker:无需3D标注,让VLM学会空间推理,7大基准超越现有方法

清华美团联合提出3DThinker框架,让多模态大模型在推理中自动生成3D心智表征,无需3D标注或外部工具。通过双阶段训练,在MindCube-Tiny等7大空间推理基准上全面超越现有方法,为AI研究者与开发者提供新思路。 Tags: 3DThinker 空间推理 ...