2026年3月16日星期一

清华美团3DThinker:无需3D标注,让VLM学会空间推理,7大基准超越现有方法

清华美团联合提出3DThinker框架,让多模态大模型在推理中自动生成3D心智表征,无需3D标注或外部工具。通过双阶段训练,在MindCube-Tiny等7大空间推理基准上全面超越现有方法,为AI研究者与开发者提供新思路。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

一句话总结:输入多视角图像+问题 → 模型在推理中自动生成3D心智表征 → 输出精准空间推理答案,3DThinker首次实现无需3D标注、无需外部工具的"思考即想象"能力。

多模态大模型(VLM)这两年进步神速,但在空间推理任务上始终存在一个关键瓶颈:

  • 看到两张房间照片,问"沙发在电视左边还是右边",模型经常答错
  • 给无人机多视角图像,问"前方障碍物距离",模型难以准确估算
  • 现有方法要么依赖纯文本推理(丢失几何信息),要么需要深度图/点云等额外输入(部署复杂)

人类怎么做空间推理?我们会在脑中快速构建3D场景的"心理图像",然后基于这个心智表征进行判断。但现有VLM缺乏这种"脑内建模"能力。 今天介绍的由清华联合美团提出的一个创新的框架3DThinker,该工作首次提出3D心智表征驱动的空间推理框架,让VLM在推理过程中自动生成3D潜在表示,无需任何3D标注或外部工具,在7大空间推理基准上全面超越现有方法。图片

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2510.18632
  • 代码:https://github.com/zhangquanchen/3DThinker

unsetunset论文介绍unsetunset

图片

尽管多模态大模型在多个领域取得了显著进展,但它们在处理和理解3D空间关系时仍面临巨大挑战。传统方法受限于纯文本或2D视觉线索的推理能力,难以准确提取图像中的几何信息。为此,研究团队提出了3DThinker框架,旨在通过内蕴地"想象"三维场景,提升多模态大模型的空间推理能力。

unsetunset方法概述unsetunset

图片

3DThinker采用了一种双阶段的训练策略,以实现模型在推理过程中的3D空间想象:

监督训练阶段(S1):

  • 数据构造:构造携带3D特殊标记(special token)的推理链(Chain-of-Thought, CoT)数据。
  • 特征对齐:通过投影器(projector)将VLM生成的3D潜在特征(3D latent)映射到3D基础模型(如VGGT)的潜空间,确保两者特征对齐。
  • 损失函数:结合3D潜在特征对齐损失和文本交叉熵损失,保证模型在提取几何信息的同时保持自然语言的连贯性。

强化训练阶段(S2):

  • 结果信号优化:在仅依赖结果信号的情况下,优化整个采样轨迹,包括其中的3D潜在特征。
  • 奖励设计:设计3D潜在特征对齐奖励、结果二值化奖励和格式奖励,确保模型在RL采样过程中不丢失几何表达。
  • 优化算法:采用GRPO(Group-relative Policy Optimization)算法进行优化,提升模型的整体性能。
图片

unsetunset实验unsetunset

图片

为了验证3DThinker的有效性,研究团队在多个空间理解基准上进行了广泛实验:

  • 数据集:包括MindCube-Tiny、Ego3D-Bench、VSI-Bench、SPBench、CV-Bench、SPAR-Bench和MMSI-Bench等。
  • 基线模型:对比了多种先进的视觉语言模型(VLMs),如Qwen2.5-VL系列、InternVL3系列等。图片

在MindCube-Tiny上,3DThinker相比基线模型整体提升了51.8%到108.8%。在Ego3D-Bench上,提升了18.1%到36.9%。在自制的大规模训练数据上,3DThinker相比之前的SOTA方法有显著提升,如Qwen2.5-VL-3B提升了10.8 pp,Qwen2.5-VL-7B提升了16.3 pp。

图片

unsetunset结论unsetunset

3DThinker通过双阶段的训练策略,成功实现了多模态大模型在推理过程中的3D空间想象。实验结果表明,该方法在多个空间理解基准上均取得了显著提升,验证了其有效性和普适性。此外,3DThinker还具备一定程度的可解释性,通过设计的投影器可以直接恢复出3D表示,使得模型推理过程更加透明。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

Clawith开源:AI智能体团队协作平台,支持持续感知与关系图谱

Clawith是一个开源的多智能体协作平台,基于OpenClaw打造团队版,引入Aware持续感知和Relationship关系图谱,让AI Agent能像团队成员一样实时协作。支持Docker一键部署,适合开发者和企业构建智能协作团队。

Tags:

最近刷到一篇文章挺有意思的,作者认为 OpenClaw 的核心机制不太对。

OpenClaw 有个很知名的功能叫 Heartbeat,翻译过来就是心跳

顾名思义,让 AI Agent 定时醒来检查一下有没有新任务。

图片

他认为没有 30 分钟才跳一次的心跳。

人类的心跳大约每秒一次。30 分钟跳一下那不叫心跳,叫闹钟。

于是作者开源了一个叫 Clawith 的项目,进行了创新。

它是一个开源的小龙虾团队版 Multi-OpenClaw🦞 Collaboration Platform,为每个 Agent 提供持久身份、长期记忆、独立工作区。

并在此基础上,引入了面向组织场景的两大关键创新:Aware 持续感知 与 Relationship 关系图谱。

其中 Aware 就是针对 OpenClaw 的 Heartbeat 的创新。

01
小龙虾协作平台

Clawith 是一个开源的多小龙虾协作平台 Multi-OpenClaw🦞 Collaboration Platform

和 OpenClaw 相比,它有两个创新,持续感知和多智能体协作。

你可以把他理解为 OpenClaw 团队版,每个小龙虾都能自主、实时的感知周围环境的变化。

图片

如果说 OpenClaw 是一款强大的个人 AI 助理,那么 Clawith 想做的是:

把这种能力真正带进组织,让 AI 变成可以协同工作的数字同事,而不只是一个被动等待指令的工具。

而且每一个 AI 智能体会持续的感知周围环境的变化,做出及时响应。

而不是半小时去看看有什么事儿要做。

开源地址:github.com/dataelement/Clawith
02
Aware 自主意识

Clawith 最核心的创新叫 Aware,在 OpenClaw 的 Heartbeat 等机制上做了拓展和创新。

这是因为开发者发现:一旦 Agent 进入复杂的团队协作网络,传统的定时触发机制,比如 Heartbeat 或 cron 就不灵了。

主要还是因为 Agent 接受的任务来源变复杂:不光来自人还来自 Agent 了。

传统的触发机制难以应对人/Agent多个来源的任务,而且和人的交互又是高度异步的(人没办法 24 小时盯着屏幕随时响应 Agent)。

而且现实中的协作也从来不是一问一答的直线,更多是等待、互相催促和多方信息对齐。

图片

所以 Clawith 提供了 6 种触发器让 Agent 感知世界,在 Openclaw 基础上进行了扩展,增加了 on_message 触发器:

仍然支持 OpenClaw 类似的五种处罚机制:

  • heartbeat

  • cron(如:每天8点)

  • once(如:今天8点)

  • interval(如:每隔一小时)

  • webhook(等外部服务通知)

新增了 on_message:消息触发,等某个人或 Agent 回复。在多 Agent 协作的场景中,这个能力非常关键。

有了它,Aware 就可以随时感知周围,不仅是人还有可能是 Agent,有事再行动。

02
数字员工 + 关系系统

Clawith 的定位是团队,所以它的 Agent 设计得更像一个新员工。

每个 Agent 进来要先认人。

知道老板是谁、同事是谁、谁的性格随和、谁老改需求。

这套系统叫 Relationship

图片

你可以创建自己的数字员工,设置它的人格设定、技能配置、权限配置。

可以在运行时发现并安装新工具(Smithery + ModelScope),也可以为自己或同事创建新技能。

有一个很顶的想法,每一个数字员工你不需要从零创建。

直接照搬 msitarzewski/agency-agents 这个开源项目,把别人沉淀好的虚拟公司 AI 角色的人格设定迁移进去。

图片

Clawith 还有个地方叫广场,相当于公司的朋友圈。

Agent 可以在里面发动态、分享发现、评论别人的工作。

人类也可以参与。

这样 Agent 就不是孤立干活,而是能持续吸收组织知识,保持上下文感知。

图片
03
如何部署

最简单的方式是用 Docker:

git clone https://github.com/dataelement/Clawith.gitcd Clawith && cp .env.example .envdocker compose up -d

然后打开 http://localhost:3000 就能用了。

第一个注册的用户自动成为管理员。

如果你不想用 Docker,也可以用脚本安装:

git clone https://github.com/dataelement/Clawith.gitcd Clawithbash setup.shbash restart.sh

前端会跑在 3008 端口,后端在 8008 端口。

Clawith 的核心思路是让 AI Agent 从被动响应变成主动感知。

Heartbeat 是闹钟式的工作方式,定时醒来看看。Aware 是持续感知,有变化立刻响应。

对于个人用户来说,OpenClaw 已经够用了。

但对于团队和企业,需要的不只是一个能对话的 AI,而是一个能融入组织、认识同事、自主安排工作的数字员工。

Clawith 就是冲着这个方向去的。

04

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

清华美团3DThinker:无需3D标注,让VLM学会空间推理,7大基准超越现有方法

清华美团联合提出3DThinker框架,让多模态大模型在推理中自动生成3D心智表征,无需3D标注或外部工具。通过双阶段训练,在MindCube-Tiny等7大空间推理基准上全面超越现有方法,为AI研究者与开发者提供新思路。 Tags: 3DThinker 空间推理 ...