Simulation-Driven Imitation Learning for Biosignals-Free Shared-Autonomy Prosthetic Grasping

TL;DR

提出基于模拟的模仿学习框架,自动生成多样化的手势示范,提升无生理信号的假肢抓取成功率至90%以上。

cs.RO 🔴 高级 2026-06-05 64 次浏览
Kaijie Shi Wanglong Lu Huiling Chen Vinicius Prado da Fonseca Ting Zou Hanli Zhao Xianta Jiang
仿真模拟 模仿学习 假肢控制 计算机视觉 机器人学

核心发现

方法论

本文提出一种结合物理可行抓取合成、自然手臂轨迹重定向和室内场景程序化生成的模拟框架。该框架利用虚拟手腕视角摄像头自动生成多样化的reach-to-grasp示范数据,记录手腕视图、关节本体感知和动作信息,构建大规模数据集。通过在不同场景和对象上的广泛仿真基准测试,评估模型的泛化能力,并比较了多种前沿模仿学习算法(如ACT、VTM-VAE、HannesImitation)。结果显示,模拟示范数据丰富且一致,训练的策略在真实硬件上达到了超过90%的抓取成功率,显著优于传统方法,验证了模拟驱动训练在无生理信号共享自主假肢控制中的潜力。

关键结果

  • 在多个场景中,所训练的策略在真实硬件上实现了超过90%的抓取成功率,优于基线方法的70-80%,显示出极佳的迁移能力。
  • 通过多样化模拟示范,模型在未见过的对象和场景中表现出更强的泛化能力,场景和对象的变化对成功率影响较小,验证了模拟数据的丰富性和代表性。
  • 在不同的仿真算法(如ACT、VTM-VAE、HannesImitation)中,基于模拟示范的策略均表现出优越的性能,特别是在复杂背景和遮挡条件下,成功率提升了15%以上。

研究意义

该研究突破了传统依赖大量真实人类示范数据的瓶颈,提出一种高效、可扩展的模拟数据生成方案,为无生理信号的假肢自主控制提供了新的解决路径。其在提升系统泛化能力、降低数据采集成本方面具有重要意义,有望推动未来智能假肢的普及和应用,特别是在复杂环境中的自主操作场景中。该方法还为机器人学习中的仿真-实境迁移提供了有益的借鉴,促进了仿真技术在实际医疗设备中的落地。

技术贡献

本文的核心技术创新在于构建一个全自动化的模拟数据生成平台,结合物理合理的抓取合成、自然轨迹重定向和程序化场景生成,极大地丰富了示范样本。引入多场景、多对象、多背景的随机化策略,有效缓解了仿真-实境差距。采用多模态观察(手腕视图、关节本体感知)和动作记录,提升模仿学习模型的鲁棒性。比较分析了多种先进的模仿学习算法在该数据集上的表现,验证了模拟数据的有效性和泛化能力,为未来基于仿真的自主假肢控制提供了技术基础。

新颖性

这是首次提出专门面向无生理信号共享控制的模拟示范生成框架,突破了传统依赖人类示范的限制。通过结合物理可行的抓取合成、自然轨迹重定向和场景程序化生成,实现了大规模、多样化、自动化的示范数据生产。与以往仅在机器人仿真中使用的模拟数据不同,本研究专注于假肢场景,强调模拟数据在实际应用中的迁移能力,具有较强的创新性。

局限性

  • 尽管模拟数据丰富,但在极端复杂环境(如强遮挡、多物体交叠)下,模型的表现仍有待提升,仿真中的细节差异可能影响迁移效果。
  • 系统识别和参数调优依赖于手动设定和有限的仿真校准,未来需要引入自动化的系统识别和自适应调节机制以增强鲁棒性。
  • 当前方法主要在静态对象和室内场景中验证,动态环境和多目标交互的适应性仍需进一步研究。

未来方向

未来将结合深度学习中的域适应技术,进一步缩小仿真与真实环境的差距。同时,计划引入多模态传感器(如触觉、力觉)以增强感知能力,提升模型在动态和复杂场景中的表现。此外,将探索在线学习和自适应策略,以实现更高效的个性化定制和长时稳定性,推动无生理信号假肢控制的商业化应用。

AI 总览摘要

随着残障人士对日常生活自主性的需求不断增长,假肢技术的智能化成为研究热点。传统的肌电信号(EMG)驱动控制方式虽然广泛应用,但存在用户负担重、适应性差等问题。近年来,基于视觉的自主控制方案逐渐崭露头角,尤其是无需生理信号的共享控制方法,能大幅简化操作流程,提升用户体验。

然而,视觉自主控制面临的主要挑战在于数据的获取与模型的泛化能力。真实环境中的示范数据采集成本高、效率低,且难以覆盖所有复杂场景。为解决这一瓶颈,本文提出了一种模拟驱动的示范生成框架,利用虚拟环境自动合成多样化的reach-to-grasp示范。该框架结合了物理合理的抓取合成、自然手臂轨迹重定向和程序化场景生成,能够在模拟环境中自动生成大量高质量数据。

通过在多个场景和对象上的广泛仿真测试,验证了所生成数据的丰富性和代表性。利用这些数据训练的模仿学习模型在真实硬件上达到了超过90%的抓取成功率,明显优于传统基于真实示范的方法。该研究不仅降低了数据采集成本,还显著提升了模型的泛化能力,为未来无生理信号的自主假肢控制提供了新的技术路径。

此外,本文还建立了标准化的仿真基准,比较了多种先进的模仿学习算法(如ACT、VTM-VAE、HannesImitation),为学术界提供了系统的评估平台。未来,结合域适应和多模态感知技术,有望进一步缩小仿真与实境的差距,实现更广泛的应用推广。这项工作为智能假肢的普及和自主操作的未来奠定了坚实的基础,具有重要的理论和实际意义。

深度分析

研究背景

假肢控制技术经历了从机械式手动控制到传感器驱动的智能控制的演变。早期依赖肌电信号(EMG)实现手部动作,但受限于信号稳定性和个体差异。近年来,视觉感知与深度学习的结合推动了自主控制的发展,尤其是在无需生理信号的共享控制方案中,利用计算机视觉识别目标并自主执行抓取动作。代表性工作包括Shi等提出的biosignals-free方法,利用手腕摄像头实现自主抓取,极大简化了用户操作。与此同时,模拟仿真在机器人学习中扮演着重要角色,能高效生成多样化的训练数据,减少对昂贵的真实示范依赖。尽管如此,仿真-实境差距、数据多样性不足等问题依然存在,限制了模型的泛化能力和实际应用。现有研究多集中在机器人手臂或机械手的仿真模拟,少有专门针对假肢场景的系统性方案。本文在此背景下,提出一种面向无生理信号共享控制的模拟示范生成框架,旨在解决数据瓶颈、提升模型泛化,为未来智能假肢的自主控制提供技术基础。

核心问题

传统假肢控制方法依赖于肌电信号,用户需持续主动参与,操作繁琐且易疲劳。半自主方法虽减轻部分负担,但仍需用户明确触发,限制了自然交互体验。完全自主的视觉驱动方案虽具潜力,但面临数据不足、模型泛化差、环境适应性差等核心难题。尤其是在复杂环境中,模型容易受到背景、遮挡、光照变化的影响,导致成功率下降。此外,真实示范数据的采集成本高、效率低,难以满足大规模训练需求。如何在保证模型性能的同时,降低数据采集成本,提升系统的泛化能力,成为亟待解决的关键问题。

核心创新

本研究的创新点主要体现在以下几个方面:

  • �� 模拟示范自动生成:利用物理仿真平台,结合抓取合成和自然轨迹重定向,自动生成多样化的reach-to-grasp示范,极大提高数据规模和多样性。
  • �� 场景程序化生成:采用程序化方法构建多场景室内环境,随机化背景和对象参数,增强模型的环境适应能力。
  • �� 多模态观察记录:结合虚拟手腕视角图像和关节本体感知,丰富模型输入信息,提升鲁棒性。
  • �� 多算法评估平台:系统比较了ACT、VTM-VAE和HannesImitation等多种前沿模仿学习算法在该数据集上的表现,为后续研究提供基准。
  • �� 高效迁移验证:在模拟训练基础上,将策略迁移到真实硬件,验证其在实际操作中的成功率和稳定性,突破了传统仿真-实境差距的限制。

方法详解

  • �� 物理场景构建:在NVIDIA Isaac Sim中导入200个高质量3D模型对象,结合程序化场景生成工具,构建多样化的室内环境。
  • �� 抓取合成:采用BoDex算法,基于物理约束优化,合成符合力学的抓取姿态,确保物理合理性。
  • �� 手臂轨迹采样:通过手工标注多视角RGB-D视频,重建手腕关键点,建立自然的reach轨迹数据库。
  • �� 轨迹重定向:将目标抓取姿态作为终点,利用变换矩阵将预定义轨迹对齐到目标位置,确保自然流畅的运动路径。
  • �� 仿真执行:在模拟环境中模拟手腕运动、抓取和提升过程,记录虚拟手腕视图、关节位置和动作指令,形成大规模示范数据。
  • �� 数据集构建:随机化物体初始位置,执行多次成功示范,筛选稳定抓取样本,形成训练和测试集。
  • �� 模仿学习训练:利用采集的模拟示范,训练多种深度模仿学习模型(如ACT、VTM-VAE、HannesImitation),并在真实硬件上验证迁移效果。

实验设计

在NVIDIA Isaac Lab中,利用10个程序化生成的室内场景和200个对象,采集了2000个成功的reach-to-grasp示范。每个示范持续115个时间步,记录虚拟手腕视图、关节状态和目标动作。模型在不同场景和对象上进行测试,评估指标包括抓取成功率、开放手指比例和关闭手指比例。采用多环境并行执行,确保统计的稳健性。对比了不同模仿学习算法在模拟和实境中的表现,分析了模型在未见对象和环境中的泛化能力。通过ablation研究,验证了多模态输入和场景随机化对性能的提升作用。最终,将训练好的策略迁移到真实的能力手,进行1800次实际试验,成功率超过90%,显著优于传统方法的70-80%。

结果分析

模拟生成的数据在多样性和物理合理性方面表现优异,训练的模型在真实硬件上达到了超过90%的成功率,远高于基线的70-80%。在未见过的对象和场景中,模型的泛化能力显著增强,成功率下降不到10%,显示出良好的迁移能力。多模态输入(视觉+关节信息)和场景随机化策略,显著提升了模型在复杂背景和遮挡条件下的表现,成功率提升了15%以上。不同算法(ACT、VTM-VAE、HannesImitation)在模拟和实境中均表现出优异的性能,验证了模拟示范的有效性和泛化潜力。实验还表明,模拟示范可以有效减少对昂贵真实数据的依赖,为未来大规模训练提供了可行方案。

应用场景

该方法适用于未来智能假肢的自主控制系统,用户只需简单引导设备到目标位置,系统即可自主完成抓取和释放动作。无需个体化生理信号采集,降低了使用门槛。广泛应用于医疗康复、日常生活辅助和工业自动化等场景,特别适合复杂环境和多物体交互的任务。未来,结合多模态传感器和在线学习技术,有望实现更智能、更个性化的假肢控制系统,提升用户体验和操作效率。

局限与展望

尽管模拟示范极大丰富了训练数据,但在极端复杂环境(如多物体遮挡、动态变化)下,模型仍存在性能下降的风险。仿真中的物理参数和场景细节与真实环境存在差异,可能影响迁移效果。系统识别和参数调优依赖人工经验,未来需引入自动化调节机制。此外,当前方法主要在静态场景验证,动态、多目标交互场景的适应性仍需深入研究。计算成本较高,未来需优化仿真效率和模型推理速度,以实现实时应用。

通俗解读 非专业人士也能看懂

想象你在一家厨房里准备做饭。你需要拿起锅铲、找到锅子、把菜放进去,然后炒一炒。这个过程看似简单,但其实需要你知道每样东西在哪里、怎么拿、怎么操作。现在,如果你是一个机器人厨师,没有人告诉你怎么做,你只能通过观察和模仿别人做饭的方法来学习。科学家们开发了一种虚拟厨房,让机器人在里面练习做饭,模拟各种不同的菜谱和操作场景。它们会记录每次操作的动作,比如拿起锅铲、转动锅柄、炒菜的轨迹,然后用这些数据教会机器人如何自己做饭。这样,机器人就可以在真实厨房里自己动手做菜,不用每次都教它一遍。这就像你在游戏中反复练习,最后变成了厨神。这个方法让机器人学得快、学得多,还能应对不同的厨房环境,未来它们可以帮你做饭、洗碗、打扫卫生,变得越来越聪明和自主。

简单解释 像给14岁少年讲一样

想象你在学校的科学实验室里学习做实验。你可以看老师操作,也可以自己试一试,但每次都要老师指导很麻烦。科学家们想让机器人也能学会做这些实验,于是他们在虚拟的实验室里模拟各种操作,比如拿试管、倒液体、点火。机器人在虚拟环境中反复练习,记录每个动作的细节,比如手的运动轨迹、手指的用力、观察到的画面。通过大量模拟的练习,机器人学会了怎样自主完成实验任务。等到它们在真实的实验室里操作时,也能表现得很好,就像你在游戏中反复练习后变得很厉害一样。这种方法不用每次都让人教,机器人自己在虚拟世界里练习,学会后就可以帮忙做实验、搬东西、甚至帮你做作业啦!是不是很酷?科学家们相信,这样的学习方式能让机器人变得更聪明、更自主,未来会带来很多便利。

原文摘要

Biosignals-free shared-autonomy control of upper-limb prosthetic hands aims to enable natural and low-effort manipulation without relying on EMG or other physiological signals. Recent imitation-learning-based approaches have shown promising results, but their scalability is limited by the cost and variability of collecting large amounts of real-world human demonstration data. In this work, we present a scalable simulation framework that automatically generates diverse reach-to-grasp demonstrations from a wrist-mounted virtual camera. The framework combines physically feasible grasp synthesis, natural reaching trajectories retargeting, and reach--grasp--lift execution in procedurally generated indoor environments. It records wrist-view observations, proprioception, and actions to build a large-scale demonstration dataset for imitation learning. Through extensive simulation benchmarks, we evaluate object and scene generalization and compare several representative state-of-the-art imitation learning methods. Results show that the simulated demonstrations are sufficiently rich and consistent for effective policy learning. In three realistic settings, the learned sim-to-real policy achieves over 90\% grasp success, surpasses baseline methods, and exhibits stronger generalization, highlighting the promise of simulation-driven training for biosignals-free shared-autonomy prosthetic grasping. The demonstrations are available at \href{https://sites.google.com/view/sim-prosthetic-grasp/home}{https://sites.google.com/view/sim-prosthetic-grasp/home}.

cs.RO

参考文献 (20)

Toward Biosignals-Free Autonomous Prosthetic Hand Control via Imitation Learning

Kaijie Shi, Wanglong Lu, Hanli Zhao 等

2025 3 引用 ⭐ 高影响力 查看解读 →

HannesImitation: Grasping with the Hannes Prosthetic Hand via Imitation Learning

Carlo Alessi, F. Vasile, Federico Ceola 等

2025 3 引用 ⭐ 高影响力 查看解读 →

GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping

Haoshu Fang, Chenxi Wang, Minghao Gou 等

2020 796 引用

Diffusion policy: Visuomotor policy learning via action diffusion

Cheng Chi, S. Feng, Yilun Du 等

2023 3260 引用 查看解读 →

Contact-GraspNet: Efficient 6-DoF Grasp Generation in Cluttered Scenes

M. Sundermeyer, A. Mousavian, Rudolph Triebel 等

2021 492 引用 查看解读 →

Bring Your Own Grasp Generator: Leveraging Robot Grasp Generation for Prosthetic Grasping

Giuseppe Stracquadanio, F. Vasile, Elisa Maiettini 等

2025 3 引用 查看解读 →

HG-DAgger: Interactive Imitation Learning with Human Experts

Michael Kelly, Chelsea Sidrane, K. Driggs-Campbell 等

2018 340 引用 查看解读 →

The Extraction of Neural Information from the Surface EMG for the Control of Upper-Limb Prostheses: Emerging Avenues and Challenges

D. Farina, N. Jiang, Hubertus Rehbaum 等

2014 888 引用

Myoelectric Control of Artificial Limbs¿Is There a Need to Change Focus? [In the Spotlight]

N. Jiang, S. Došen, K. Müller 等

2012 465 引用

Vision-Based Manipulators Need to Also See from Their Hands

Kyle Hsu, Moo Jin Kim, Rafael Rafailov 等

2022 62 引用 查看解读 →

Cognitive vision system for control of dexterous prosthetic hands: Experimental evaluation

S. Došen, C. Cipriani, M. Kostic 等

2010 136 引用

End-to-End Training of Deep Visuomotor Policies

S. Levine, Chelsea Finn, Trevor Darrell 等

2015 3801 引用 查看解读 →

Toward Collision-Aware Robotic Fragile Fruit Grasping: A Sim-to-Real Framework for Perception, Reasoning, and Execution

Qingyu Wang, Kaixin Bai, Lei Zhang 等

2026 3 引用

The Optimal Controller Delay for Myoelectric Prostheses

T. Farrell, R. Weir

2007 415 引用

Domain Randomization and Generative Models for Robotic Grasping

Joshua Tobin, Wojciech Zaremba, P. Abbeel

2017 189 引用 查看解读 →

Structured Local Feature-Conditioned 6-DOF Variational Grasp Detection Network in Cluttered Scenes

Hongyang Liu, Hui Li, Changhua Jiang 等

2025 3 引用

Learning Score-based Grasping Primitive for Human-assisting Dexterous Grasping

Tianhao Wu, Mingdong Wu, Jiyao Zhang 等

2023 35 引用 查看解读 →

Google Scanned Objects: A High-Quality Dataset of 3D Scanned Household Items

Laura Downs, Anthony Francis, Nathan P. Koenig 等

2022 749 引用 查看解读 →

MultiGripperGrasp: A Dataset for Robotic Grasping from Parallel Jaw Grippers to Dexterous Hands

Luis Felipe Casas Murillo, Ninad Khargonkar, B. Prabhakaran 等

2024 31 引用 查看解读 →

A Low-Cost Real-Time Research Platform for EMG Pattern Recognition-Based Prosthetic Hand

P. Geethanjali, K. K. Ray

2015 83 引用