清华美团联合提出3DThinker框架,让多模态大模型在推理中自动生成3D心智表征,无需3D标注或外部工具。通过双阶段训练,在MindCube-Tiny等7大空间推理基准上全面超越现有方法,为AI研究者与开发者提供新思路。
Tags:
一句话总结:输入多视角图像+问题 → 模型在推理中自动生成3D心智表征 → 输出精准空间推理答案,3DThinker首次实现无需3D标注、无需外部工具的"思考即想象"能力。
多模态大模型(VLM)这两年进步神速,但在空间推理任务上始终存在一个关键瓶颈:
看到两张房间照片,问"沙发在电视左边还是右边",模型经常答错 给无人机多视角图像,问"前方障碍物距离",模型难以准确估算 现有方法要么依赖纯文本推理(丢失几何信息),要么需要深度图/点云等额外输入(部署复杂)
人类怎么做空间推理?我们会在脑中快速构建3D场景的"心理图像",然后基于这个心智表征进行判断。但现有VLM缺乏这种"脑内建模"能力。 今天介绍的由清华联合美团提出的一个创新的框架3DThinker,该工作首次提出3D心智表征驱动的空间推理框架,让VLM在推理过程中自动生成3D潜在表示,无需任何3D标注或外部工具,在7大空间推理基准上全面超越现有方法。
相关链接
论文:https://arxiv.org/pdf/2510.18632 代码:https://github.com/zhangquanchen/3DThinker
论文介绍
尽管多模态大模型在多个领域取得了显著进展,但它们在处理和理解3D空间关系时仍面临巨大挑战。传统方法受限于纯文本或2D视觉线索的推理能力,难以准确提取图像中的几何信息。为此,研究团队提出了3DThinker框架,旨在通过内蕴地"想象"三维场景,提升多模态大模型的空间推理能力。
方法概述
3DThinker采用了一种双阶段的训练策略,以实现模型在推理过程中的3D空间想象:
监督训练阶段(S1):
数据构造:构造携带3D特殊标记(special token)的推理链(Chain-of-Thought, CoT)数据。 特征对齐:通过投影器(projector)将VLM生成的3D潜在特征(3D latent)映射到3D基础模型(如VGGT)的潜空间,确保两者特征对齐。 损失函数:结合3D潜在特征对齐损失和文本交叉熵损失,保证模型在提取几何信息的同时保持自然语言的连贯性。
强化训练阶段(S2):
结果信号优化:在仅依赖结果信号的情况下,优化整个采样轨迹,包括其中的3D潜在特征。 奖励设计:设计3D潜在特征对齐奖励、结果二值化奖励和格式奖励,确保模型在RL采样过程中不丢失几何表达。 优化算法:采用GRPO(Group-relative Policy Optimization)算法进行优化,提升模型的整体性能。
实验
为了验证3DThinker的有效性,研究团队在多个空间理解基准上进行了广泛实验:
数据集:包括MindCube-Tiny、Ego3D-Bench、VSI-Bench、SPBench、CV-Bench、SPAR-Bench和MMSI-Bench等。 基线模型:对比了多种先进的视觉语言模型(VLMs),如Qwen2.5-VL系列、InternVL3系列等。
在MindCube-Tiny上,3DThinker相比基线模型整体提升了51.8%到108.8%。在Ego3D-Bench上,提升了18.1%到36.9%。在自制的大规模训练数据上,3DThinker相比之前的SOTA方法有显著提升,如Qwen2.5-VL-3B提升了10.8 pp,Qwen2.5-VL-7B提升了16.3 pp。
结论
3DThinker通过双阶段的训练策略,成功实现了多模态大模型在推理过程中的3D空间想象。实验结果表明,该方法在多个空间理解基准上均取得了显著提升,验证了其有效性和普适性。此外,3DThinker还具备一定程度的可解释性,通过设计的投影器可以直接恢复出3D表示,使得模型推理过程更加透明。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论