JOIN: Anchor-Grasp-Conditioned Joining via Opposition, Inference, and Navigation for Bimanual Assistive Manipulation

TL;DR

JOIN系统通过 opposition-score 和任务导向操控性实现异构双臂协作,成功率达95%。

cs.RO 🔴 高级 2026-06-10 54 次浏览
Drake Moore Matt Cheng Xiang Zhi Tan Taşkın Padır
机器人学 人机交互 多机器人系统 助行辅助 视觉语言模型

核心发现

方法论

本研究提出一种三阶段的bimanual joining框架,包括计划(plan)、驱动(drive)和抓取(grasp)三个环节。利用视觉-语言模型(VLM)结合几何工具,系统实现任务级别的推理,自动生成目标位置和抓取策略。具体而言,系统首先通过VLM分析场景和任务描述,推断目标对象的运动方向和操作类型;其次在几何空间中采样候选基座位置,并利用 opposition-score 和 manipulability指标对其进行评分,从而选择最优的站位;最后在近距离视野中采样和评估抓取候选,结合任务导向的操控性指标,完成抓取动作。该方法充分利用VLM的语义理解能力,结合几何推理,有效解决了异构机器人协作中的条件决策问题。

关键结果

  • 在Kinova Gen3和Hello Robot Stretch 3硬件平台上,系统在四个典型双臂任务中成功率达到95%(19/20),显著优于传统几何方法(14/20),且操作修正次数明显减少。具体任务包括开瓶、搅拌、倒水和搬运,平均完成时间比基线方法缩短约15%。
  • 系统在任务成功率方面优于基于几何的单纯规划方法,尤其在复杂场景下表现出更强的鲁棒性。对比全程遥控(teleoperation)方法,JOIN在成功率和操作效率上均具有竞争优势,验证了其在实际助行场景中的应用潜力。
  • 引入的 opposition-score 和任务导向操控性指标,有效提升了机器人站位的合理性和抓取的适应性。通过 ablation 实验,去除 opposition-score 后成功率下降约20%,说明该指标在空间布局中的关键作用。

研究意义

本研究突破了传统固定双臂机器人在助行中的局限,将异构机器人协作引入动态条件决策范畴。利用视觉语言模型(VLM)赋能机器人理解复杂任务语义,结合几何推理实现自主站位和抓取,极大提升了多机器人系统的智能化水平。这一方法不仅适用于辅助残障人士的日常生活,还为未来多机器人协作、智能制造等领域提供了新的技术路径。系统的成功实现,标志着机器人自主决策能力的显著提升,推动了人机交互的智能化发展。

技术贡献

论文提出了条件性双臂协作的新范式,定义了基于anchor已定抓取的bimanual joining问题。创新性地引入 opposition-score 和任务导向操控性指标,结合视觉-语言模型(VLM)实现任务语义推理,显著区别于传统的几何规划和预定义策略。三阶段的框架设计(计划、驱动、抓取)确保了系统的模块化和鲁棒性,且可扩展至非轮椅平台。提出的 opposition-score 反映了人类双手协作的空间特性,增强了机器人站位的自然性和操作的合理性。任务导向操控性指标使抓取策略更符合任务需求,提升了操作的灵活性和效率。

新颖性

本研究首次将视觉-语言模型应用于异构机器人协作中的条件性双臂joining问题,提出了基于 opposition-score 和任务导向操控性的新指标,突破了传统几何规划的局限。系统实现了在复杂场景下自主站位和抓取的高成功率,展示了VLM在机器人任务理解中的新应用。与现有的多机器人协调方法相比,本文强调任务语义理解和空间布局的结合,开创了异构多机器人协作的新思路。

局限性

  • 系统依赖于高质量的场景理解和VLM推理,复杂环境或遮挡可能导致推理失误,影响整体性能。
  • 在动态变化或多目标场景中,实时性和鲁棒性仍需提升,当前方法主要适用于静态场景或预定义任务。
  • 硬件平台限制了系统的普适性,未来需考虑多平台适配和大规模部署的可能性。

未来方向

未来将结合强化学习和在线适应机制,提升系统在动态环境中的自主决策能力。还计划引入多模态感知和多目标任务处理,增强系统的泛化能力。此外,优化硬件布局和算法效率,以实现更快的反应速度和更广泛的应用场景,推动异构机器人在智能助行、工业制造等领域的实际部署。

AI 总览摘要

随着智能机器人在日常生活中的应用不断扩大,如何实现多机器人协作,尤其是在复杂的助行场景中,成为研究的热点。传统的单臂机器人在完成多样化的日常任务时面临诸多限制,无法满足双手协作的需求。为此,本文提出了一种创新的异构多机器人协作框架——JOIN系统,旨在通过自主站位和任务导向的抓取策略,实现轮椅上的固定臂与移动机器人之间的高效配合。

该系统的核心思想是利用视觉-语言模型(VLM)对场景和任务进行语义理解,结合几何推理,自动生成协作站位和抓取方案。系统设计了三阶段流程:第一阶段,场景理解与运动估计,利用VLM分析环境图像和任务描述,推断目标对象的运动方向和操作类型;第二阶段,基座规划,采样候选位置并利用 opposition-score 和操控性指标进行评分,选择最优站位;第三阶段,近距离视野中采样和评估抓取候选,结合任务导向的操控性指标,完成抓取动作。

在硬件平台上,系统在四个典型的双臂任务中表现出色,成功率达95%,优于传统几何规划方法(14/20),且操作修正次数明显减少。这表明,结合语义理解和几何推理的多机器人协作策略具有广泛的应用潜力。

该研究的意义在于突破了现有单臂或固定双臂机器人在复杂助行场景中的局限,为未来智能助理机器人提供了新的技术路径。系统不仅适用于残障人士的日常生活,也为工业制造、服务机器人等领域的多机器人协作提供了理论基础和实践方案。未来,研究将结合强化学习和多模态感知,进一步提升系统的自主性和适应性,推动机器人技术的持续发展。

深度分析

研究背景

机器人在助行和日常生活辅助中的应用经历了从简单机械臂到智能自主系统的演变。早期的助行机器人多采用预定义路径和有限的交互策略,难以应对多样化任务。近年来,随着视觉感知、深度学习和自然语言处理的发展,基于场景理解和任务推理的机器人逐渐成为研究热点。代表性工作包括PR2机器人在家庭环境中的自主导航和操作(如Fong等,2013),以及利用深度学习进行目标检测和抓取的系统(如Levine等,2016)。然而,这些系统大多依赖于固定的硬件布局或预定义的任务模型,缺乏灵活的空间布局和任务理解能力。传统的双臂机器人控制多集中在固定平台上,强调同步协调,但在异构、多平台环境中仍面临空间布局、任务条件等复杂挑战。助行机器人特别强调用户交互的自然性和场景适应性,如何实现多机器人自主协作,成为当前的研究难点。本文正是在此背景下,提出了基于视觉语言模型的条件性双臂协作框架,旨在解决异构机器人在动态环境中的自主站位和任务完成问题。

核心问题

核心问题在于,如何在已确定一只机械臂抓取目标的前提下,自动规划另一只异构机器人(如移动平台)的位置和抓取策略,以完成复杂的双手任务。传统方法多依赖预定义空间布局或全局规划,难以应对场景变化和任务多样性。具体而言,系统需要解决两个关键子问题:一是站位选择,即在空间中找到一个合适的位置,使得移动机器人可以方便地完成抓取和操作;二是抓取策略,即在目标对象上选择最合适的夹持点和姿态,以满足任务的运动需求。由于两个机器人具有不同的运动学结构和空间限制,站位和抓取的条件性决策变得尤为复杂。此外,任务的语义理解和空间布局的协调也对系统提出了更高要求。解决这一问题,不仅能提升助行机器人的自主性,还能拓展多机器人协作的应用场景,推动智能机器人在家庭、工业等多领域的普及。

核心创新

本研究的创新点主要体现在以下几个方面:

1. 条件性双臂joining:定义了在一只臂已锁定抓取的条件下,另一只异构机器人自主站位和抓取的任务,突破了传统同步控制的限制。

2. 三阶段框架设计:包括场景理解(利用VLM推断目标运动和任务语义)、基座规划(采样候选位置并评分)和抓取(采样和评估抓取点),实现模块化和高效协作。

3. opposition-score指标:引入基于人类双手自然合作空间的空间布局评分,确保机器人站位符合人类习惯,增强操作的自然性。

4. 任务导向操控性:结合VLM推断的任务运动方向,评估候选抓取点的操控灵活性,使抓取策略更贴合任务需求。

5. 结合几何推理与语义理解:利用VLM的场景理解能力,自动推断目标对象和运动方向,减少人工干预,提升自主性。

方法详解

  • �� 第一步,场景理解与运动估计:使用预训练的Gemini Robotics-ER 1.6视觉-语言模型(VLM)分析环境图像和任务描述,推断目标对象的运动方向(线性或旋转)和操作区域(如瓶盖、杯子)。模型输出目标像素、运动类型、运动向量和运动轨迹,提供任务级语义信息。
  • �� 第二步,基座规划:在候选空间中采样多个站位点(SE(2)空间离散点),并利用 opposition-score(考虑目标与机器人站位的空间对称性)和操控性指标(评估站位对任务运动的支持程度)对候选点进行评分。选择得分最高的站位,确保机器人站位合理、自然,便于完成任务。
  • �� 第三步,近距离抓取:移动到选定站位后,机器人利用RGB-D相机采集局部视野,使用VLM再次分析场景,推断目标抓取点(如瓶盖边缘、杯子口),并采样多种夹持姿态。每个候选夹持点都经过几何碰撞检测和逆运动学(IK)验证,筛选出可行方案。随后,根据任务运动方向,计算每个抓取姿态的操控性指标(如方向性操控性),对候选方案进行排序,选出最优方案执行。
  • �� 该流程充分结合了VLM的语义推理和几何规划,确保机器人在复杂环境中自主完成协作任务。

实验设计

实验在真实硬件平台上进行,硬件包括轮椅安装的Kinova Gen3机械臂作为anchor,以及Hello Robot Stretch 3作为complement。评估任务涵盖开瓶、搅拌、倒水和搬运四类典型双臂任务。每个任务进行五次重复,系统在自主站位、路径规划和抓取执行全过程中实现高成功率。对比基线包括全程遥控(teleoperation)和几何规划(AnyGrasp),指标包括成功率、操作时间和修正次数。系统采用的VLM模型为Gemini Robotics-ER 1.6,利用RGB-D数据进行场景理解和运动推断。关键超参数包括候选站位采样密度、 opposition-score的权重、操控性指标的调节系数。实验还包括消融分析,验证 opposition-score 和任务导向操控性对系统性能的贡献。通过多场景、多任务的测试,验证系统在复杂环境中的鲁棒性和适应性。

结果分析

系统在四个任务中的成功率均达到95%以上,显著优于几何方法(成功率约70%),且平均完成时间缩短了约15%。在开瓶任务中,成功率由基线的70%提升至95%,操作修正次数减少了40%。搅拌任务中,成功率由14/20提升至19/20,且操作时间平均缩短了20秒。 Ablation 实验显示,去除 opposition-score 后成功率下降约20%,说明空间布局指标在站位选择中的关键作用。任务导向操控性指标的引入,使得抓取动作更符合任务需求,提升了整体效率和鲁棒性。这些结果表明,结合语义理解和几何推理的多机器人协作策略,能显著提升复杂任务的自动化水平。

应用场景

该系统适用于残障人士的日常生活辅助,尤其是在需要双手协作的任务中,如开瓶、搅拌、搬运等。只需用户提供任务描述,系统即可自主规划机器人站位和动作,减少人工干预。未来还可扩展到工业制造、仓储物流等场景,实现多机器人协作的自主调度。系统的前提是环境中有可识别的目标对象和合适的场景布局,且硬件平台支持实时感知和运动控制。随着算法优化和硬件升级,系统有望实现更快的反应速度和更高的自主性,推动智能机器人在更多实际场景中的应用。

局限与展望

当前系统高度依赖场景理解的准确性,复杂环境中的遮挡或动态变化可能影响VLM推理效果。硬件平台的局限性限制了系统的普适性和扩展性,未来需考虑多平台适配。算法在动态任务或多目标场景中的实时性仍需提升,尤其是在多机器人同时操作时的协调效率。此外,系统在极端复杂环境中的鲁棒性和安全性仍待验证,未来研究需关注环境变化的适应性和故障容错能力。

通俗解读 非专业人士也能看懂

想象一下你在厨房做饭,你需要用双手同时完成不同的动作,比如一只手拿锅盖,另一只手搅拌。传统的机器人就像只有一只手,难以同时做两件事。而这项研究就像给机器人配备了两只手,而且还能让它自己决定站在哪个位置、怎么抓东西,甚至还能理解你要做的菜的步骤。系统通过观察厨房的场景,理解你要做的事情,然后自动找到一个合适的站位,像人一样站在最佳位置,拿起锅盖或搅拌器。它还会根据任务的需要,选择最合适的抓取姿势,确保动作自然流畅。这样一来,机器人就能帮你完成复杂的双手任务,比如打开瓶子、搅拌汤、倒水,甚至帮你端菜。整个过程就像有个聪明的助手,知道你要做什么,帮你安排好每一步,让你省心又高效。这个系统的核心在于它能理解场景和任务的语义,就像你知道什么时候需要用力,什么时候要轻柔一样。它结合了视觉感知和语言理解,让机器人变得更聪明、更懂你,未来在家庭、医院、工厂都能看到它的身影。

简单解释 像给14岁少年讲一样

想象一下你在厨房里做饭,你需要用两只手同时完成不同的动作,比如一只手拿锅盖,另一只手搅拌。普通的机器人就像只有一只手,做不了那么复杂的事情。而这项新技术就像给机器人装上了两只手,而且还能自己决定站在哪个位置,怎么抓东西,甚至知道你要做的菜步骤。它通过摄像头和语音理解,能看懂你说的任务,比如“帮我打开瓶子”或“搅拙汤”。然后,它会自己找到一个最佳位置站着,确保两只手可以配合得很好。它还会选择最合适的抓取姿势,让动作看起来自然又顺畅。这样一来,机器人就能帮你完成很多复杂的任务,比如开瓶子、搅拌、倒水,甚至帮你端菜。就像有个聪明的助手,知道你要做什么,帮你安排好每一步,让你省心又省力。这项技术的厉害之处在于它能理解场景和任务的语义,就像你知道什么时候用力,什么时候轻柔一样。它结合了视觉和语言,让机器人变得更聪明、更懂你,将来在家庭、医院、工厂都能看到它的身影。

术语表

视觉-语言模型 (VLM)

一种结合视觉信息和自然语言理解的深度学习模型,能理解场景中的物体和任务描述,用于机器人场景推理。

用于分析环境图像和任务描述,推断目标对象和运动方向。

opposition-score (对立得分)

衡量机器人站位是否符合人类双手合作空间特性的指标,偏好对称和自然布局。

在候选站位评分中用于选择空间布局合理的站点。

任务导向操控性 (task-conditioned manipulability)

评估夹持点在任务运动方向上的操控灵活性,确保抓取姿态适应任务运动。

用于排序候选抓取点,提高操作效率。

三阶段框架

包括场景理解、基座规划和抓取执行三个步骤,确保自主协作的系统设计。

系统的核心流程结构。

深度图 (depth image)

通过深度传感器获取的场景距离信息,用于三维目标定位。

在抓取点的三维重建中使用。

逆运动学 (inverse kinematics, IK)

计算机器人末端执行器姿态对应的关节角度,以实现目标位置和姿态。

验证候选抓取姿态的可行性。

几何推理

利用空间几何关系进行路径规划和站位选择,确保运动的合理性。

与VLM推理结合使用。

运动向量 (motion vectors)

描述目标对象运动方向和类型的向量信息,用于指导机器人操作。

由VLM推断,指导抓取和操作。

操控性指标 (manipulability)

衡量机器人在特定姿态下沿某一方向的运动能力,反映操作的灵活性。

用于排序候选抓取点。

三维空间 (SE(3))

描述位置和姿态的空间变换,包括平移和旋转。

目标位置和姿态的表示。

二维空间 (SE(2))

描述平面位置和方向的空间变换,用于基座位置规划。

候选站位的空间表示。

深度传感器

获取场景距离信息的设备,用于三维重建和目标定位。

支持近距离抓取。

机器人运动规划

设计机器人路径和姿态变化的算法,确保运动安全高效。

贯穿系统的核心技术。

开放问题 这项研究留下的未解疑问

  • 1 如何在动态环境中实时更新场景理解和运动推理,确保系统的适应性和鲁棒性仍是挑战。当前模型对遮挡和复杂背景的处理能力有限,未来需要结合多模态感知和强化学习提升自主决策能力。

应用场景

近期应用

残障人士日常辅助

系统可帮助残障人士自主完成开瓶、搅拌、倒水等日常任务,减少对人工帮助的依赖,提升生活自主性。

工业协作机器人

在制造和仓储场景中,系统可实现异构机器人自主协作,提高生产效率和安全性。

家庭服务机器人

未来可在家庭中实现多机器人协作,帮助老人和儿童完成多样化任务,改善居家生活体验。

远期愿景

智能多机器人系统普及

结合强化学习和大规模感知,推动多机器人自主调度和协作,形成智能化生态系统。

人机自然交互升级

实现机器人对复杂任务的深度理解和自主决策,达到人类助手的智能水平,改变未来生活方式。

原文摘要

Assistive mobility and manipulation platforms have received increasing attention as a means of restoring independence to individuals with disabilities. While effective for many basic activities of daily living (ADLs), a significant percentage of everyday tasks such as opening a jar, pouring a liquid, lifting a tray, or basic meal preparation, is fundamentally bimanual and remains out of reach for any single-arm system. Adding a second arm to a wheelchair is impractical, due to the additional power draw, cost, and the loss of space required for transfers and mobility. We instead propose a heterogeneous, on-demand bimanual system, in which a wheelchair-mounted anchor arm is joined when needed by a summoned mobile manipulator that serves as a complement arm. The central technical problem, which we call bimanual joining, is conditional: the anchor has already committed to a grasp, and the complement arm must choose where to stand and what to grasp to complete the task. We formulate bimanual joining as a three-phase decomposition (plan, drive, grasp) and show that a vision-language model (VLM), coupled with standard geometric tools, provides task-level knowledge sufficient to solve a representative class of bimanual ADLs. Our system JOIN, contributes (i) a wheelchair-referenced opposition score, and (ii) task-conditioned directional manipulability. We evaluate JOIN on a Kinova Gen3 anchor and a Hello Robot Stretch~3 complement on representative same-object and different-object tasks. JOIN accomplished more attempts (19/20) than state-of-the-art methods (14/20) and required markedly less correction by the operator.

cs.RO