AI I024: 清华美团3DThinker：无需3D标注，让VLM学会空间推理，7大基准超越现有方法

2026年3月16日星期一

清华美团3DThinker：无需3D标注，让VLM学会空间推理，7大基准超越现有方法

清华美团联合提出3DThinker框架，让多模态大模型在推理中自动生成3D心智表征，无需3D标注或外部工具。通过双阶段训练，在MindCube-Tiny等7大空间推理基准上全面超越现有方法，为AI研究者与开发者提供新思路。

Tags:

3DThinker

空间推理

多模态大模型

无需3D标注

AI前沿

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

一句话总结：输入多视角图像+问题 → 模型在推理中自动生成3D心智表征 → 输出精准空间推理答案，3DThinker首次实现无需3D标注、无需外部工具的"思考即想象"能力。

多模态大模型（VLM）这两年进步神速，但在空间推理任务上始终存在一个关键瓶颈：

看到两张房间照片，问"沙发在电视左边还是右边"，模型经常答错
给无人机多视角图像，问"前方障碍物距离"，模型难以准确估算
现有方法要么依赖纯文本推理（丢失几何信息），要么需要深度图/点云等额外输入（部署复杂）

人类怎么做空间推理？我们会在脑中快速构建3D场景的"心理图像"，然后基于这个心智表征进行判断。但现有VLM缺乏这种"脑内建模"能力。今天介绍的由清华联合美团提出的一个创新的框架3DThinker，该工作首次提出3D心智表征驱动的空间推理框架，让VLM在推理过程中自动生成3D潜在表示，无需任何3D标注或外部工具，在7大空间推理基准上全面超越现有方法。

unsetunset相关链接unsetunset

论文：https://arxiv.org/pdf/2510.18632
代码：https://github.com/zhangquanchen/3DThinker

unsetunset论文介绍unsetunset

尽管多模态大模型在多个领域取得了显著进展，但它们在处理和理解3D空间关系时仍面临巨大挑战。传统方法受限于纯文本或2D视觉线索的推理能力，难以准确提取图像中的几何信息。为此，研究团队提出了3DThinker框架，旨在通过内蕴地"想象"三维场景，提升多模态大模型的空间推理能力。

unsetunset方法概述unsetunset

3DThinker采用了一种双阶段的训练策略，以实现模型在推理过程中的3D空间想象：

监督训练阶段（S1）：

数据构造：构造携带3D特殊标记（special token）的推理链（Chain-of-Thought, CoT）数据。
特征对齐：通过投影器（projector）将VLM生成的3D潜在特征（3D latent）映射到3D基础模型（如VGGT）的潜空间，确保两者特征对齐。
损失函数：结合3D潜在特征对齐损失和文本交叉熵损失，保证模型在提取几何信息的同时保持自然语言的连贯性。

强化训练阶段（S2）：

结果信号优化：在仅依赖结果信号的情况下，优化整个采样轨迹，包括其中的3D潜在特征。
奖励设计：设计3D潜在特征对齐奖励、结果二值化奖励和格式奖励，确保模型在RL采样过程中不丢失几何表达。
优化算法：采用GRPO（Group-relative Policy Optimization）算法进行优化，提升模型的整体性能。

unsetunset实验unsetunset

为了验证3DThinker的有效性，研究团队在多个空间理解基准上进行了广泛实验：

数据集：包括MindCube-Tiny、Ego3D-Bench、VSI-Bench、SPBench、CV-Bench、SPAR-Bench和MMSI-Bench等。
基线模型：对比了多种先进的视觉语言模型（VLMs），如Qwen2.5-VL系列、InternVL3系列等。

在MindCube-Tiny上，3DThinker相比基线模型整体提升了51.8%到108.8%。在Ego3D-Bench上，提升了18.1%到36.9%。在自制的大规模训练数据上，3DThinker相比之前的SOTA方法有显著提升，如Qwen2.5-VL-3B提升了10.8 pp，Qwen2.5-VL-7B提升了16.3 pp。

unsetunset结论unsetunset

3DThinker通过双阶段的训练策略，成功实现了多模态大模型在推理过程中的3D空间想象。实验结果表明，该方法在多个空间理解基准上均取得了显著提升，验证了其有效性和普适性。此外，3DThinker还具备一定程度的可解释性，通过设计的投影器可以直接恢复出3D表示，使得模型推理过程更加透明。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

没有评论:

发表评论