DIRECT: When and Where Should You Allocate Test-Time Compute in Embodied Planners?

TL;DR

本文提出DIRECT，通过多模态场景上下文动态分配测试时计算资源，有效提升机器人规划性能，降低65%的延迟。

cs.RO 🔴 高级 2026-06-11 63 次浏览

Jadelynn Dao Milan Ganai Yasmina Abukhadra Ajay Sridhar Mozhgan Nasr Azadani Katie Luo Clark Barrett Jiajun Wu Chelsea Finn Marco Pavone

AI 阅读器 Arxiv 原文下载 PDF

机器人规划多模态学习动态推理路由测试时推理优化嵌入式系统

核心发现

方法论

本文提出的DIRECT框架基于多模态场景信息，通过训练一个轻量级的路由器模型，动态决定在每个任务中调用哪个高层视觉-语言模型（VLM）规划器。该路由器融合场景图像和指令文本的特征，预测不同模型在特定任务中的质量-成本比，从而实现按需调度。具体算法包括多模态特征编码（使用SigLIP视觉编码器和BGE-M3文本编码器），基于回归的质量和成本预测，以及多目标优化的路由决策机制。训练过程中，采用合成任务数据和真实机器人任务数据，构建质量和推理成本矩阵，训练路由器以最大化整体效率指标。该方法结合了多模型集成、多模态特征融合和贝叶斯优化思想，有效应对不同任务的复杂性和模型能力差异。

关键结果

在VLABench和RoboMME两个公开基准上，DIRECT在多尺度能力提升方面表现优异，能在保持或超越最强模型性能的同时，将延迟降低最多65%。具体而言，在链式推理深度、模型规模和记忆历史三个轴向，路由器根据任务场景动态调度模型，显著改善了性能-成本的帕累托前沿。例如，在VLABench上，利用路由策略，成功率提升了15%以上，而平均延迟降低了30秒以上。
在真实机器人平台Franka机械臂的DROID任务中，DIRECT实现了与最强模型相当甚至更优的成功率，同时延迟降低了65%，验证了其在实际应用中的有效性。特别是在长时序任务和零样本操作场景中，动态调度显著减少了不必要的推理成本，提高了系统的实时性。
通过多模态特征融合和任务感知的调度策略，本文还揭示了不同推理深度、模型大小和记忆策略在能力提升中的非均匀性。实验结果表明，合理的模型调度可以在不同任务难度和场景复杂度下，实现能力最大化与成本最小化的平衡，为未来机器人自主决策提供了新的思路。

研究意义

该研究突破了传统静态模型部署的局限，提出了基于场景感知的动态推理调度框架，极大提升了机器人在复杂环境中的适应能力。通过智能调度不同能力模型，显著降低了推理延迟和能耗，推动了机器人自主系统的实用化进程。该方法不仅适用于机器人规划，还可推广到多模态自然语言处理、智能问答等领域，为大规模多模型系统的高效调度提供了理论基础和工程方案。未来，随着多模态感知技术的发展，动态推理调度将成为智能系统提升效率和能力的核心技术之一。

技术贡献

本文的主要技术贡献包括：首先，提出一种多模态场景感知的模型调度策略，有效结合视觉和文本信息，提升调度决策的准确性。其次，设计了轻量级的路由器模型，基于回归预测模型质量和成本，实现实时调度。再次，系统性分析了链式推理深度、模型规模和记忆策略在能力提升中的非线性关系，为多模型调度提供理论指导。最后，通过在仿真平台和真实机器人硬件上的大规模实验，验证了该方法在多任务、多场景中的优越性能，展示了其在机器人自主规划中的广泛应用潜力。

新颖性

该研究的创新点在于首次将多模态场景信息融入高层规划模型的动态调度中，突破了传统静态模型部署的限制。与现有的模型路由方法（如FrugalGPT、RouteLLM）主要基于文本信息不同，本文引入视觉信息增强调度决策，显著提升了调度的准确性和鲁棒性。此外，提出的多尺度调度策略结合了推理深度、模型规模和记忆策略的非线性关系，为多模型系统的优化提供了新思路。这在机器人领域实现了从静态模型切换到场景感知的动态调度的创新突破。

局限性

当前方法依赖于高质量的多模态场景感知和特征编码，场景信息的噪声或误差可能影响调度效果，尤其在复杂或动态环境中表现不佳。
训练数据主要基于合成任务和有限的真实场景，泛化能力在极端或未见过的场景中仍需验证，存在一定的适应性风险。
模型调度的决策过程在极端任务或高复杂度场景中可能出现误判，导致能力不足或资源浪费，未来需引入更鲁棒的决策机制。

未来方向

未来工作将聚焦于提升多模态感知的鲁棒性，结合强化学习和自适应优化策略，增强调度的泛化能力。此外，将探索更复杂的多模型集成策略，支持多任务、多场景的连续调度，提升系统的自主性和适应性。同时，考虑硬件资源的动态变化，优化调度策略以实现能效最大化。最终目标是构建一个具有高度自主决策能力、可扩展的多模态调度框架，推动机器人自主系统的智能化和普及化。

AI 总览摘要

在机器人自主规划领域，如何在保证任务成功率的同时降低推理延迟，一直是研究的核心难题。传统方法多采用静态模型部署策略，导致在不同任务和场景中资源浪费或性能不足。本文提出的DIRECT框架，创新性地融合多模态场景信息，动态调度多模型集成系统，实现了在复杂环境下的高效推理。通过训练一个轻量级的多模态路由器，结合视觉和文本特征，预测不同模型在特定任务中的性能表现，从而按需调用最合适的模型。该方法在多个公开基准和真实机器人平台上进行了验证，结果显示，能够在保持或超越最强模型性能的同时，将延迟降低最多65%。

具体而言，本文系统分析了链式推理深度、模型规模和记忆策略在能力提升中的非线性关系，揭示了不同技术在不同任务中的适用性差异。基于这些洞察，设计了多尺度调度策略，使得机器人系统在多任务、多场景下都能实现能力最大化与成本最小化的平衡。

在仿真平台VLABench和RoboMME上，实验结果显示，DIRECT在多项指标上优于静态调度策略，成功率提升了15%以上，平均延迟降低了30秒。在真实的Franka机械臂DROID任务中，调度策略同样表现出色，成功率与最强模型持平甚至更优，延迟降低了65%。这些成果充分证明了多模态场景感知与动态调度的结合，为机器人自主决策提供了新思路。

该研究的意义在于突破了传统静态模型部署的限制，为多模型系统的高效调度提供了理论基础和工程实践方案。未来，随着多模态感知技术和强化学习的不断发展，动态调度将在机器人自主系统中扮演越来越重要的角色，推动智能机器人向更高的自主性和适应性迈进。

深度分析

研究背景

机器人自主规划技术经历了从基于规则的行为树到深度学习驱动的端到端系统的演变。早期的研究主要关注单一模型的性能优化，如基于强化学习的路径规划和行为决策。近年来，视觉-语言模型（VLM）逐渐成为高层规划的核心工具，代表性工作包括GPT-4、PaLM等在自然语言理解中的应用，以及结合视觉信息的多模态模型如LLaVA、MiniGPT-4。通过将抽象指令转化为具体操作，机器人实现了更高的语义理解和场景适应能力。然而，模型规模的不断扩大带来了推理延迟和能耗问题，限制了在实际环境中的部署。现有研究多采用静态模型切换策略，未能充分利用场景信息进行动态调度，导致资源浪费和性能瓶颈。本文在此基础上，提出了结合多模态场景感知的动态调度框架，旨在解决模型能力与推理成本之间的平衡问题，为机器人自主规划提供新的解决方案。

核心问题

当前机器人高层规划多依赖单一模型，难以兼顾不同任务的复杂性和实时性。随着模型规模和推理深度的增加，延迟和能耗显著上升，严重制约了机器人在动态环境中的应用。尤其是在多任务、多场景的复杂任务中，静态模型部署导致资源浪费和性能不足。如何根据场景和指令的具体需求，动态调度不同能力的模型，成为提升系统效率的关键。该问题的核心难点在于：1）如何准确感知任务的复杂性和场景信息；2）如何设计高效的调度策略，实现实时决策；3）如何在保证任务成功率的同时，最大程度降低推理成本。这些挑战的解决，将极大推动机器人自主系统的实用化和智能化。

核心创新

本文的创新主要体现在以下几个方面：第一，提出多模态场景感知的调度策略，将视觉信息和文本指令融合，提升调度决策的准确性。第二，设计了轻量级的路由器模型，基于回归预测模型的质量和成本，实现实时调度，避免模型能力的盲目堆叠。第三，系统性分析了推理深度、模型规模和记忆策略在能力提升中的非线性关系，为多尺度调度提供理论依据。第四，结合仿真和实际硬件验证，展示了调度策略在多任务、多场景中的优越性能。这些创新点共同推动了多模型调度技术的边界，为机器人自主规划提供了可行的工程方案。

方法详解

�� 多模态特征编码：使用SigLIP视觉编码器提取场景图像特征，BGE-M3文本编码器处理指令文本，将两者融合为统一特征向量。
�� 质量与成本预测：训练回归模型预测每个模型在特定任务中的成功概率（质量）和推理资源消耗（成本），构建质量矩阵Q和成本矩阵C。
�� 路由决策：设计轻量级的路由器r(·)，输入融合特征ϕ(x)，输出模型索引k̂，基于预定义的效用函数U(·)选择最优模型。
�� 训练策略：利用合成任务和真实场景数据，采样场景、生成指令、执行模型，记录成功率和延迟，优化路由器参数。
�� 物理验证：在Franka机械臂上部署，结合任务场景，验证调度策略的实际效果。
�� 多尺度调度：结合推理深度、模型规模和记忆策略，设计多层次调度机制，适应不同任务需求。

实验设计

�� 采用VLABench和RoboMME两个公开数据集，评估调度策略在多任务、多场景中的性能。
�� 与静态模型选择（最低/最高成本）、随机调度和OOD检测基线进行比较。
�� 关键指标包括成功率、平均推理延迟和效率得分（η），通过大规模仿真和硬件测试验证。
�� 进行消融实验，分析不同特征融合策略、模型能力尺度和调度目标的影响。
�� 在真实机器人平台上，测试多任务、多阶段调度效果，验证系统的鲁棒性和实用性。

结果分析

�� 在VLABench上，调度策略实现成功率提升15%以上，延迟降低30秒，效率得分达75%以上，优于所有静态和随机调度方法。
�� 在RoboMME中，调度模型在不同难度级别的任务中表现出优越的适应性，显著减少了不必要的模型调用。
�� 在Franka机械臂的实际操作中，调度策略成功实现了与最强模型相当甚至更优的任务完成率，同时延迟降低65%，验证了方法的实用性和鲁棒性。

应用场景

�� 机器人自主任务规划：在复杂环境中，根据场景动态调度不同能力模型，提高效率和成功率。
�� 多模态系统调度：结合视觉和语言信息，实现智能调度，适应多样化任务需求。
�� 工业自动化：优化机器人在生产线上的多任务调度，降低能耗和响应时间。
�� 智能助理：在家庭或服务场景中，根据场景变化调度不同能力的模型，提升交互体验。

局限与展望

�� 依赖高质量的多模态感知，场景噪声或误差可能影响调度效果。
�� 训练数据主要来自合成和有限真实场景，泛化能力仍需提升。
�� 在极端复杂或动态环境中，调度模型可能出现误判，影响系统稳定性。未来需引入更鲁棒的感知和决策机制，提升适应性。

通俗解读非专业人士也能看懂

想象你在厨房里做饭。不同的菜需要不同的厨具和时间，有些菜简单，只用微波炉就能搞定，有些菜复杂，需要用炉子、锅、调料，还要花很多时间。现在，如果你能根据菜的难度和厨房的状态，智能选择用哪个厨具，效率就会大大提高。这个过程就像机器人在完成任务时，要根据场景信息决定调用哪个模型。比如，有些任务简单，机器人可以用“快刀斩乱麻”的小模型快速完成；而复杂任务，则需要“深思熟虑”的大模型。本文提出的DIRECT，就像一个聪明的厨房助手，能根据场景和任务需求，动态选择最合适的厨具（模型），既保证菜做得好，又节省时间和能源。这样，厨房（机器人系统）就能更快、更好地完成各种菜肴（任务），而不用每次都用最大、最慢的厨具。

简单解释像给14岁少年讲一样

想象你在学校里，有很多不同的老师教不同的科目。有的老师讲得快，适合简单的题目；有的老师讲得慢，但能帮你理解复杂的问题。你不会每次都找那个最厉害、最慢的老师来讲课，因为那样浪费时间。相反，你会根据问题的难度，选择合适的老师来帮你学习。这个选择过程就像机器人在完成任务时，要决定用哪个模型。比如，简单的任务用快的模型就可以了，复杂的任务才用慢的、厉害的模型。本文提出了一个聪明的“调度器”，它能看场景和任务的内容，决定用哪个模型最合适。这样，机器人可以更快完成任务，又能保证效果，就像你用对老师学对科目一样。这个方法让机器人变得更聪明，也更实用！

原文摘要

Vision-Language Models (VLMs) are increasingly deployed as high-level planners for embodied agents, with an emerging strategy of scaling test-time compute to improve capability. However, we observe that doing so increases latency, token usage, and FLOPs while yielding uneven, often diminishing gains in downstream success, limiting where embodied agents can be deployed. We argue that choosing when and where to spend test-time compute is central to bringing frontier performance to the real world. We introduce DIRECT, a routing framework that uses multimodal scene context to allocate compute per prompt, improving the success--cost Pareto frontier over fixed model selection. Across three dominant scaling axes, namely chain-of-thought depth, model size, and memory history, our experiments on VLABench and RoboMME show that test-time compute is not a uniform lever: different axes yield qualitatively distinct capability gains. We validate these insights on a physical Franka arm in a DROID setup spanning zero-shot manipulation and long-horizon chaining, where our router matches or exceeds a stronger model's success rate at up to 65% lower average latency. Ultimately, our results show that naively scaling test-time compute is wasteful, and that DIRECT can provide frontier-level embodied planning in robotic systems at a fraction of the cost. Project page can be found at jadee-dao.github.io/direct/.

cs.RO cs.AI cs.CV

DIRECT: When and Where Should You Allocate Test-Time Compute in Embodied Planners?

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

相关论文

Increasing Resilience of Continuum Robots via Motion Planning Algorithms

ARC: Adaptive Robust Joint State and Covariance Estimation

Do as I Do: Dexterous Manipulation Data from Everyday Human Videos

Observability and Consistency Analysis for Visual-Inertial Navigation with Anchored Feature Parameterizations

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

R2RDreamer: 3D-aware Data Augmentation for Spatially-generalized 2D Manipulation Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样