英伟达提出Fast-ThinkAct框架,通过将冗长思维链压缩为紧凑潜在表示,结合视觉规划蒸馏与推理增强策略,在机器人操作任务中实现推理延迟降低89.3%,性能超越现有SOTA模型。该方法显著提升长程规划、少样本适应与失败恢复能力,推动实时具身智能发展。
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:NVIDIA等
论文链接: https://arxiv.org/abs/2601.09708
项目链接: https://jasper0314-huang.github.io/fast-thinkact/
亮点直击
高效推理框架Fast-ThinkAct:一种高效的推理框架,能够在保持强大规划能力的同时,将推理过程压缩为可言语化的潜在思维(verbalizable latent thoughts)。 偏好引导的潜在蒸馏:引入了带有操作轨迹对齐的偏好引导蒸馏方法,成功将复杂的语言和视觉规划压缩为紧凑的连续潜在表示。 推理增强的策略学习:通过以操作轨迹潜在表示为指导的推理增强策略学习,有效地桥接了高层的视觉规划与底层的动作执行。 卓越的性能与效率:在多样的具身基准测试中,实现了高达 89.3% 的推理延迟降低,同时在性能上超越了现有的 SOTA 推理型 VLA 模型。
解决的问题
现有的推理型 VLA 模型(Reasoning VLAs)虽然通过引入显式的思维链(CoT)提升了对复杂任务的泛化能力,但面临着严峻的 推理延迟(Inference Latency) 挑战。
延迟过高:生成详细的推理步骤通常涉及约 250 个文本 token,导致推理速度极慢,无法满足机器人实时控制的需求。 信息冗余:冗长的文本推理中往往包含对动作执行非必要的冗余信息,直接缩短长度又可能导致性能下降。 控制脱节:纯文本推理难以直接映射到精确的连续机器人控制信号。
提出的方案
本文提出了 Fast-ThinkAct 框架,通过以下机制解决上述问题:
潜在空间推理(Latent Reasoning):用极短的连续潜在向量(Continuous Latent Vectors)代替冗长的离散文本 token。 双重蒸馏策略: 偏好引导的言语化蒸馏:利用教师模型生成的显式 CoT,通过 Verbalizer 监督学生模型生成具有语义含义的潜在向量。 动作对齐的视觉规划蒸馏:将教师模型的视觉规划能力蒸馏到学生模型的空间 token 中,确保空间理解的准确性。 推理增强的策略学习:将生成的紧凑视觉规划直接作为条件,注入到下游的扩散策略(Diffusion Policy)中进行动作预测。
应用的技术
偏好优化 (Preference Optimization/DPO):受 DPO 启发,构建奖励函数来区分高质量和低质量的推理轨迹,引导学生模型的潜在空间学习。 组相对策略优化 (GRPO):用于训练教师模型,使其生成的 CoT 与动作执行对齐。 Verbalizer (言语化器):一个辅助解码器,用于确保潜在向量 可以被"翻译"回自然语言,保证潜在表示的语义丰富性。 空间 Token (Spatial Tokens):引入专门的 learnable tokens 来并行预测视觉轨迹的关键点(Waypoints)。 扩散策略 (Diffusion Policy):作为底层的动作执行器,接收来自 VLM 的潜在规划特征。
达到的效果
速度:在 NVIDIA A100 上,推理时间从 ThinkAct-7B 的 7513ms 降低到 Fast-ThinkAct-3B 的 805ms。 准确率:在 LIBERO-Long(长程任务)上,成功率达到 53.7%,远超 OpenVLA (16.8%) 和 ThinkAct (40.2%)。 泛化性:在 SimplerEnv-Google 真实世界模拟基准中达到 87.1% 的成功率。 双臂操作:在复杂的 RoboTwin2.0 双臂任务中,表现优于 RDT 和 等基线模型。
方法
问题定义
首先定义设置和符号。在每个时间步 ,给定语言指令 ,模型观察视觉输入 并生成动作块(Action Chunk) ,表示为连续机器人控制向量序列(例如,单臂机器人为 7-DOF,双臂机器人为 14-DOF)。
为了解决这个问题,本文提出了 Fast-ThinkAct,这是一个高效的推理框架,旨在连接高层规划与底层动作执行。本文的方法采用一个 VLM 在连续潜在空间中进行推理,并集成一个动作模型 以生成可执行的动作。具体而言, 通过潜在思维链(CoT)推理处理观测-指令对 ,生成一个紧凑的视觉规划潜在表示 ,该表示在视觉空间中封装了预期的轨迹。随后, 指导 预测可执行动作 。通过将推理蒸馏到连续的潜在空间而非离散文本,Fast-ThinkAct 在实现显著提升的推理效率的同时,通过更好地保留空间和视觉信息增强了动作性能。
高效具身推理
为了实现满足具身 AI 任务实时性要求的高效具身推理,本文旨在将长文本 CoT 压缩为一组紧凑的连续潜在表示。然而,将推理轨迹压缩为潜在表示具有挑战性,因为潜在空间中缺乏直接的监督信号来指导应编码何种推理模式。
偏好引导的言语化潜在 CoT
为了解决这一挑战,本文提出通过引入一个将潜在表示解码为可言语化推理的言语化器(verbalizer)LLM,在自然语言空间中执行蒸馏。这种方法将潜在学习接地于可解释的文本形式,确保学习到的潜在表示忠实地保留了底层的推理结构。由于教师模型 生成的推理轨迹表现出不同的质量,本文采用了一个基于偏好的学习框架,利用来自教师 GRPO 训练的奖励信号,引导潜在学生模型 趋向高质量的推理模式,同时抑制低质量的模式。
具体而言,本文采用教师-学生框架,其中文本教师模型 首先通过 GRPO训练学习显式推理,最大化以下目标:
其中 表示推理轨迹, 是概率比率。组奖励 的优势函数表示为:
这一训练过程产生了质量参差不齐的文本 CoT,其中优势函数 自然地充当了质量指标。为了构建用于蒸馏的偏好对,本文从每个推演(rollout)组中选择优势最高和最低的轨迹:
学生模型 不生成文本 token,而是通过自回归方式执行潜在推理,生成 个连续的潜在向量 ,其中 , 为隐藏层大小。然后,本文训练言语化器 LLM 将这些潜在向量 解码为自然语言。训练目标是鼓励言语化器在将潜在向量解码为高质量推理 时的似然度高于低质量推理 。受 DPO启发,本文将其公式化为由奖励偏好引导的优化问题:
其中 是参考模型(即不带潜在条件的 ), 是 sigmoid 函数, 控制偏好强度。这鼓励学生 VLM 编码那些能被言语化器解码为高质量推理的潜在变量,同时抑制低质量模式。
动作对齐的视觉规划蒸馏
虽然言语化器损失(公式 4)使学生 能够捕捉高层推理模式,但它不能显式保证潜在表示编码了对具身控制至关重要的视觉规划能力。为了解决这个问题,本文引入了动作对齐的视觉规划蒸馏,将教师 的空间推理能力迁移给学生 。
本文从教师模型中蒸馏空间推理能力,该教师模型是使用轨迹级奖励(例如,目标完成度和轨迹对齐)训练的,以实现接地的视觉规划。本文通过最小化 <answer> token 的隐藏状态之间的 L2 距离来对齐轨迹级表示,该 token 编码了视觉规划:
其中 和 分别是来自教师(对应于 )和学生的隐藏状态。
为了实现高效的并行轨迹预测,不同于文本教师模型自回归地生成冗长的路径点文本序列 (其中 ,当 时分词为 60-70 个 token),学生模型使用 个附加在推理潜在序列之后的可学习空间 token ,每个输出隐藏状态通过一个 MLP 同时投影到一个路径点。训练 的总目标结合了所有三个部分:
其中 表示第 个空间 token 的输出隐藏状态, 是真实的路径点。通过这个统一的框架,学生模型 执行紧凑但富有表现力的潜在推理,并高效地生成视觉轨迹规划。
推理增强的策略学习
在学生 VLM 执行紧凑的潜在推理并通过空间 token 生成视觉轨迹规划之后,本文利用这些表示来指导基于扩散 Transformer 的动作模型 (例如 RDT)进行动作预测。为了将高层视觉规划与低层动作生成连接起来,本文将对应于空间 token 的键值(KV)缓存中编码的视觉潜在规划 连接到动作模型。
具体而言,本文从较早的 VLM 层(因为 的层数多于 )的空间 token KV 缓存中提取视觉潜在规划 ,并与来动作模型状态编码器的 KV 对拼接。动作模型的交叉注意力机制随之同时关注视觉规划上下文和状态观测。本文通过冻结 和状态编码器,仅使用模仿学习目标更新 ,在带有动作标注的机器人数据上进行后训练(post-training):
其中 表示扩散策略的去噪目标, 是真实动作。通过这种后训练,动作模型有效地将来自紧凑潜在推理的视觉规划转化为低层机器人动作。
学习策略与推理
训练策略。本文将教师 和学生 初始化为从预训练 VLM 经过 SFT 和 CoT-SFT 获得的同一个检查点。教师模型使用 GRPO 进行训练,采用动作对齐奖励,而学生模型则使用 进行训练,以将推理压缩为紧凑的潜在表示。然后,本文将训练好的 与动作模型 (初始化自 Liu et al. (2024))连接,通过冻结 和状态编码器,仅在大规模机器人数据上使用 更新潜在投影层和 。对于目标环境适应(例如 LIBERO, RoboTwin2.0),本文在环境特定的演示数据上进行微调。
推理。 通过紧凑的潜在推理处理 ,通过 个空间 token 生成视觉轨迹。从空间 token 的 KV 缓存中提取的视觉潜在规划 用于调节 以预测动作 。推理仅需要 和 ;Verbalizer 仅在训练期间使用,或可选地用于解释性。
实验
实验设置
模型架构:采用 Qwen2.5-VL 3B 作为 VLM 骨干网络。 训练流程: SFT & CoT-SFT:首先进行监督微调(SFT)和思维链微调(CoT-SFT),作为教师和学生模型的共同初始化点。 教师训练:使用 GRPO 算法和动作对齐的视觉奖励(以及 QA 奖励)优化教师模型 。 学生蒸馏:学生模型 通过 Verbalizer 损失(前 3000 步预热,后 1500 步正式蒸馏)和视觉蒸馏损失进行训练。 策略学习:冻结 VLM,训练下游动作模型 (如 DiT-Policy 或 RDT)。 数据集: 推理训练:使用单臂(Lee et al. (2025))和双臂(AIST)视觉轨迹数据,以及多个 QA 数据集(PixMo, RoboFAC, RoboVQA 等)。 策略学习:使用 OXE 数据集(用于 SimplerEnv)和 Aloha 数据集(用于 RDT)。 评估基准: 机器人操作:SimplerEnv(模拟真实世界相关性)、LIBERO(涵盖长程等多种任务)、RoboTwin2.0(复杂双臂操作)。 具身推理:EgoPlan-Bench2, RoboVQA, OpenEQA, RoboFAC(失败恢复)。
定量评估
机器人操作性能: LIBERO & SimplerEnv:Fast-ThinkAct 在所有子任务上均超越了 OpenVLA、CoT-VLA、ThinkAct 和 MolmoAct 等基线模型。 效率提升:相比 ThinkAct-7B 和 MolmoAct-7B,推理延迟分别降低了 89.3% 和 88.0%;即使对比同参数量的 ThinkAct-3B,也实现了 7 倍加速(805ms vs 5674ms)。 双臂操作 (RoboTwin2.0):在 Easy 和 Hard 设置下均显著优于 RDT 和 ThinkAct,证明了在复杂双臂任务上的有效性。 具身推理性能: 在 EgoPlan-Bench2、RoboVQA 和 OpenEQA 上,Fast-ThinkAct 全面超越了包括 GPT-4V 和 Gemini-2.5-Flash 在内的对比方法,展示了强大的多步规划和场景理解能力。
Fast-ThinkAct 分析
推理赋能长程规划:推理能力对于长程任务至关重要,实验证明 Fast-ThinkAct 在 LIBERO-Long 等长序列任务中表现尤为突出。 推理赋能失败恢复: RoboFAC 基准:Fast-ThinkAct 在模拟和真实数据上的得分分别比第二名高出 10.9 和 16.4 分。 定性分析:能够准确识别失败原因(如"抓取位置偏差")并提出具体的恢复计划(如"先退后,再对齐,最后抓取")。 推理赋能少样本适应: Few-shot 实验:在 RoboTwin2.0 上仅用 10 个演示进行微调,Fast-ThinkAct 在中等和长程任务上的表现均优于 和 ThinkAct,且延迟更低。 可言语化潜在推理的可视化: 对比显示,教师模型的文本推理虽然详细但包含冗余信息(橙色部分),而学生模型通过 Verbalizer 解码出的内容更加简洁、聚焦且准确(绿色部分),证明了蒸馏过程在压缩计算成本的同时也过滤了无效信息。 消融实验: 去除 或 均会导致性能下降,验证了偏好引导的语义对齐和视觉轨迹蒸馏的必要性。 单纯的 CoT-SFT 虽然有利于开放式 QA,但在结构化推理任务中因引入冗余信息而效果不佳,不如本文的蒸馏方法。
结论
Fast-ThinkAct,这是一个针对视觉-语言-动作(Vision-Language-Action, VLA)任务的高效推理框架,通过可言语化的潜在推理实现了紧凑且富有表现力的规划。通过利用偏好引导的蒸馏和视觉轨迹对齐,将冗长的文本推理压缩为紧凑的潜在表示,本文的方法通过推理增强的策略学习,将高层具身推理与底层动作执行连接起来。在多样的机器人操作和具身推理基准上的广泛实验表明,Fast-ThinkAct 在实现显著降低的推理延迟的同时,取得了强大的性能,并具备有效的长程规划、少样本适应以及失败恢复能力。
局限性与未来工作。由于Verbalizer 构建在预训练的 LLM 之上,它不可避免地继承了语言模型的局限性,包括幻觉问题,偶尔会产生看似合理但不准确的描述。然而,这并不影响推理期间的动作执行,因为 Verbalizer 仅用于解释性目的,而动作预测使用的是来自视觉规划蒸馏的 grounded(接地的)潜在表示。为了进一步提高言语化推理的忠实度,未来的工作可以考虑整合具有接地感知(grounding-aware)的目标函数或幻觉抑制技术。
参考文献
[1] Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论