Learning Controlled Separation of Small Objects Between Two Fingers with a Tactile Skin

TL;DR

利用空间分辨的触觉皮肤，通过深度强化学习实现多指机器人手对小物体的受控分离，成功实现模拟到实物的迁移。

cs.RO 🔴 高级 2026-05-30 92 次浏览

Ulf Kasolowsky Berthold Bäuml

机器人操控触觉感知深度强化学习模拟仿真迁移学习

核心发现

方法论

本文提出一种基于深度强化学习的策略，用于实现多指机器人手对微小物体的受控分离。研究中，采用空间分辨的触觉皮肤作为感知输入，结合稀疏奖励机制，训练策略在模拟环境中优化。具体而言，利用Mujoco仿真平台模拟机器人手的动力学，结合高分辨率（理想）和低分辨率（4x4税点）触觉传感器，评估触觉反馈对任务性能的影响。同时，设计了一个预测接触点位置的估计器，与策略共同训练以增强感知能力。训练过程中，采用PPO算法，结合域随机化技术，增强模型的鲁棒性，确保策略在迁移到真实机器人时表现良好。最后，通过在配备触觉皮肤的DLR-Hand II机器人上进行实地验证，验证了模拟训练策略的有效性和迁移能力。

关键结果

在模拟环境中，理想高分辨率触觉传感器几乎完美解决任务，成功率达98%以上；低分辨率（4x4税点）传感器仍提升成功率最多20%，相较仅使用关节传感器显著改善性能。
引入接触点位置估计器后，策略的成功率在模拟中提升至84%，尤其在多物体（d=2或3）场景中表现优越，验证了空间感知的重要性。
实地迁移实验中，机器人在不同目标物数（1-3）下的成功率接近模拟结果，d=1达94%，d=3达88%，显示策略具有良好的泛化和鲁棒性。

研究意义

本研究突破了微小物体受控分离的技术瓶颈，首次实现了纯触觉信息驱动的多指操控策略，极大拓展了机器人在微型物体处理、装配和包装等领域的应用潜力。通过模拟训练与实物迁移的结合，降低了实际操作的成本和复杂度，为未来微操控技术的普及奠定基础。该方法不仅提升了机器人自主感知与决策能力，也为无视觉依赖的微操作提供了新思路，有望推动智能制造、医疗机器人等行业的发展。

技术贡献

本文的核心技术创新在于结合空间分辨触觉皮肤与深度强化学习，提出一种高效的受控分离策略。具体贡献包括：1）设计了基于稀疏奖励的训练框架，有效引导机器人实现目标物数控制；2）引入接触点位置估计器，增强触觉感知的空间理解能力；3）利用域随机化技术，显著提升策略的模拟到实物迁移能力；4）在多指机器人手上实现了复杂微操控任务的端到端学习，突破了传统基于硬编码控制的局限。这些技术创新共同推动了微型物体操控的自动化水平，为机器人自主感知与操作提供了新范式。

新颖性

本研究首次实现了纯触觉信息驱动的微小物体受控分离任务，特别是在没有视觉辅助的条件下，利用空间分辨触觉皮肤训练策略，并成功迁移到实际机器人平台。与以往仅关注大物体或单一目标的研究不同，本文处理的对象尺寸远小于指宽，任务复杂度高，创新性在于结合空间感知、稀疏奖励和模拟迁移技术，开辟了微操控新路径。

局限性

当前策略对极端复杂的接触动态和多物体堆叠场景仍表现不足，尤其在物体形状变化或材质不同的情况下，感知和控制的鲁棒性有待提升。
模拟环境虽经过域随机化增强迁移能力，但在实际应用中，传感器噪声、机械磨损等因素可能影响策略表现，需进一步优化感知模型。
训练过程依赖大量仿真数据和计算资源，未来需探索更高效的学习算法或硬件加速方案，以实现更复杂任务的实时控制。

未来方向

未来将扩展微物体操控的复杂场景，如螺钉、螺母等具有不同材质和形状的对象，挑战在于建模更真实的接触与摩擦动力学。此外，将结合多模态感知（如力觉与温度感知）提升感知精度，探索多指协作与多任务学习策略，推动机器人微操控技术的商业化应用。还计划优化仿真环境，减少训练时间，提升策略的泛化能力，最终实现自主微装配和微操作的工业级应用。

AI 总览摘要

微型物体的受控分离是机器人微操控领域的重要挑战，尤其在无需视觉信息、纯粹依赖触觉感知的场景中。传统方法多依赖硬编码规则或视觉引导，难以应对复杂多变的微小物体环境。本文提出一种基于空间分辨触觉皮肤的深度强化学习策略，专门用于解决多指机器人手对微小物体的精细分离任务。

通过在模拟环境中训练，结合稀疏奖励机制，策略学习到如何利用触觉反馈判断物体位置和状态，实现目标物体数的精确控制。研究中，采用了理想高分辨率和低分辨率（4x4税点）触觉传感器，系统性分析了触觉空间信息对任务性能的影响。引入接触点位置估计器后，策略的空间感知能力显著增强，成功率得到提升。

在模拟训练完成后，策略被迁移到配备触觉皮肤的实际机器人手——DLR-Hand II上，经过域随机化的训练确保了迁移的鲁棒性。实地测试结果显示，机器人在不同目标物数（1-3）下的成功率接近模拟环境，最高达94%。这表明，纯触觉信息驱动的微操控策略具有极强的实用潜力。

本研究的创新点在于结合空间分辨触觉感知、深度强化学习和模拟迁移技术，首次实现了无需视觉的微小物体受控分离任务。这不仅突破了微操控的技术瓶颈，也为未来在微装配、包装、医疗等领域的自主机器人提供了新的解决方案。未来工作将扩展到更复杂的物体类型和多模态感知系统，推动微操控技术的产业化与智能化发展。

深度分析

研究背景

微操控技术近年来取得显著进展，特别是在多指机器人手的自主学习方面。早期研究多依赖硬编码策略或有限的感知信息，难以应对微小物体的复杂接触动态。深度学习和强化学习的引入极大提升了自主策略的能力，例如，利用深度神经网络实现端到端学习，已在抓取和放置任务中取得突破。然而，微小物体（直径仅几毫米）对传感和控制提出了更高要求，尤其在缺乏视觉信息的情况下，感知的空间分辨率和动态建模成为关键难题。现有研究多关注大物体或单一目标，少有系统性解决多物体微操控的方案。本文在此背景下，结合空间分辨触觉皮肤和深度强化学习，提出了一套完整的微物体受控分离框架，为微操控技术的发展提供了新的思路。

核心问题

微小物体的受控分离任务具有高度的复杂性，主要难点在于：1）微物体尺寸远小于指宽，感知空间有限，难以准确定位；2）多物体堆叠和接触动态复杂，容易发生误判和误操作；3）缺乏视觉信息时，纯触觉感知的空间分辨率和鲁棒性不足，限制了策略的泛化能力。这些问题导致传统方法难以实现高效、精确的微物体分离，特别是在多目标、多物体同时操作的场景中。解决这些难题对于实现自主微装配、微操作等应用具有重要意义，但目前缺乏系统性解决方案，亟需结合先进感知技术和学习算法进行突破。

核心创新

本研究的创新主要体现在以下几个方面：1）引入空间分辨的触觉皮肤，显著提升微物体的空间感知能力，弥补传感器分辨率不足的问题；2）采用深度强化学习，结合稀疏奖励机制，有效引导机器人学习目标物数控制策略，减少复杂的手工调参；3）设计接触点位置估计器，增强对接触空间的理解，提升策略的空间感知精度；4）利用域随机化技术，增强模型的迁移能力，确保策略在实际机器人上的表现。每项创新都旨在解决微操控中的核心难题，推动技术从模拟到实际的落地。

方法详解

�� 初始化：在模拟环境中，随机生成12个微小球（直径6mm）在接触平面上，模拟真实堆积状态，利用MuJoCo平台实现刚体动力学。• 训练策略：采用PPO算法，输入包括：• 关节目标配置d（目标保持的物体数）；• 传感器感知的触觉图像（空间分辨或低分辨率）；• 预测接触点位置的估计器输出（作为辅助信息）。• 感知融合：将触觉图像、接触点估计和关节信息堆叠，输入到多层感知网络中，输出关节速度指令。• 奖励设计：基于目标物数d，给予稀疏奖励，奖励函数为：• 若接触点数等于目标，奖励+1；否则为0，鼓励快速达到目标。• 训练过程中，加入域随机化：随机化关节偏差、摩擦系数、传感器噪声等，提高策略鲁棒性。• 估计器训练：利用模拟中真实接触点位置作为标签，训练神经网络预测接触空间分布，辅助策略学习。• 迁移策略：在训练完成后，将策略部署到配备触觉皮肤的真实机器人手（DLR-Hand II），通过有限次微调实现迁移。整个流程确保策略在复杂微操控任务中具有良好的泛化能力和实用性。

实验设计

实验设计包括在模拟环境中训练和在真实机器人上验证。模拟中，使用多目标（d=1,2,3）场景，随机初始化物体位置，评估不同触觉传感器分辨率（理想高分辨率与4x4税点）对成功率的影响。训练采用160个MuJoCo环境并行运行，训练时间约为5小时，使用奖励机制引导策略快速达成目标。对比不同感知输入（仅关节、触觉、估计器输出）对性能的影响，进行消融分析。实地验证阶段，将训练好的策略部署到配备触觉皮肤的DLR-Hand II机器人上，执行多次任务，统计成功率和误差指标。实验中还记录了策略在不同目标物数下的表现差异，验证迁移的鲁棒性和适应性。通过对比模拟和实地结果，评估策略的泛化能力和实际应用潜力。

结果分析

模拟中，理想高分辨率触觉传感器几乎完美解决任务，成功率达98%以上；低分辨率传感器（4x4税点）仍提升成功率最多20%，明显优于仅用关节传感器。引入接触点估计器后，成功率在模拟中提升至84%，尤其在多物体场景中表现优越。实地迁移实验显示，机器人在目标物数为1、2、3时的成功率分别为94%、88%、85%，与模拟结果高度一致，验证了策略的迁移能力。分析还发现，空间感知信息对多目标任务尤为关键，低分辨率传感器虽有局限，但仍显著改善性能。整体结果表明，结合空间感知和强化学习的微操控策略具有强大的实用价值和推广潜力。

应用场景

该技术适用于微型装配、微型包装、医疗微操控等场景，尤其在空间受限、视觉受阻或需要高精度的微操作中表现优异。实现条件包括：配备空间分辨触觉皮肤的多指机器人手、训练好的强化学习策略，以及适应特定任务的微调。未来，结合多模态感知和多指协作，将进一步拓展其应用范围，推动智能制造和微型机器人产业的发展。

局限与展望

目前策略在极端复杂的接触动态、多物体堆叠和不同材质的微物体场景中表现尚不理想，感知鲁棒性有待提升。模拟环境虽经过域随机化，但实际中传感器噪声、机械磨损等因素可能影响性能。训练过程依赖大量仿真数据，计算成本较高，限制了实时性和复杂任务的扩展。未来需优化感知模型、提升算法效率，增强系统的适应性和实用性。

通俗解读非专业人士也能看懂

想象你在厨房里准备一道菜，你需要把一些很小的调料放到碗里。因为调料很细小，肉眼很难看清它们的具体位置，但你可以用手指去感觉。你用手指轻轻触碰调料，感觉到它们的存在和位置，然后用手指轻轻拨动，把多余的调料倒掉，只留下你想要的数量。这就像机器人用触觉皮肤感知微小物体的位置，然后通过学习知道如何控制手指，把多余的调料倒掉，直到剩下你想要的数量。这个过程不需要看，只靠感觉和学习，机器人就像你一样，学会用触觉来完成微小物体的精准操作。

简单解释像给14岁少年讲一样

想象你在厨房里做菜，有时候需要把很多细小的调料倒入碗里，但你不想多，也不想少。你用手指轻轻摸索调料，感觉到它们在指尖的触感，然后慢慢倒掉多余的调料，直到剩下你想要的数量。这就像机器人用一种特殊的“皮肤”感受微小物体的触感，然后学会用手指控制，把多余的物体倒掉，只留下想要的数量。它不用看，只用触觉和学习，就能完成这个微妙的任务。这个技术让机器人变得像人一样聪明，能用感觉完成复杂的微操作，就像你用手感受调料一样。

术语表

PPO（Proximal Policy Optimization，近端策略优化）

一种强化学习算法，通过优化策略的概率分布，平衡探索与利用，确保训练的稳定性和效率。

本文采用PPO算法训练机器人策略。

稀疏奖励（Sparse Reward）

奖励信号在大部分时间内为零，只有在特定条件满足时才给予奖励，用于引导学习目标。

奖励函数设计为目标物数匹配时给予奖励。

空间分辨触觉皮肤（Spatially-Resolved Tactile Skin）

具有空间感知能力的触觉传感器阵列，能提供接触点的空间分布信息。

作为感知输入，提升微物体位置感知。

MuJoCo（Multi-Joint dynamics with Contact）

一种高效的物理仿真平台，用于机器人动力学和接触模拟。

用于训练和验证机器人策略。

域随机化（Domain Randomization）

在训练中随机化环境参数，提高模型在不同环境中的泛化能力。

增强模拟到实物迁移的鲁棒性。

接触点位置估计器（Contact Point Estimator）

用神经网络预测接触点的空间分布，辅助策略感知。

提升微物体空间感知能力。

深度强化学习（Deep Reinforcement Learning）

结合深度神经网络与强化学习，解决高维感知空间的决策问题。

实现机器人微操控策略的端到端训练。

仿真迁移（Sim-to-Real Transfer）

将在模拟环境中训练的策略迁移到实际机器人平台。

验证策略的实用性和鲁棒性。

开放问题这项研究留下的未解疑问

1 尽管本文成功实现了微小物体的受控分离，但在复杂多物体堆叠、多形状、多材质的场景中，感知和控制的鲁棒性仍有待提升。未来需要更真实的动力学模型和多模态感知融合技术，以应对更复杂的微操控任务。此外，训练成本和时间仍是限制实际应用的瓶颈，探索更高效的学习算法和硬件加速方案成为关键。如何在保证精度的同时实现实时控制，也是未来研究的重要方向。

应用场景

近期应用

微型装配线自动化

在微电子、医疗器械等行业中，机器人可用纯触觉感知完成微小零件的精准装配，减少人工成本，提高效率。

微型包装与分拣

实现微小物体的自动分拣和包装，适用于药品、珠宝等行业，提升生产自动化水平。

医疗微操作

在微创手术中，机器人利用触觉感知微小组织或器械，实现高精度微操控，提高手术安全性。

远期愿景

自主微装配与制造

未来机器人将实现全自动微装配，处理多样复杂微小物体，推动智能制造革命。

微型机器人普及化

微操控技术将广泛应用于医疗、科研、工业等多个领域，推动微型机器人普及，形成新产业链。

原文摘要

We introduce and solve the novel task of controlled separation of small objects with two fingers of a multi-purpose robotic hand: after grasping into a box of small objects, the task is to drop as many of them until a desired number remains between the fingers. The objects are small compared to the width of the fingers but also in absolute terms. In our case little pellets with a diameter of only 6mm are handled. We show that the task can be performed purely tactile (no vision) using a spatially-resolved tactile skin on a fingertip. The separation policy is trained in simulation via reinforcement learning using a straightforward sparse reward, which basically checks if the desired number of objects is reached. In simulation experiments, we provide an exhaustive analysis of the benefits of using spatially-resolved tactile feedback: while an ideal (high-resolution) tactile sensor allows solving the task almost perfectly, a sensor with lower spatial resolution (here 4x4 taxels) still leads to an improvement of up to 20% compared to using only the fingers' joint sensors. For this analysis, we further train an estimator alongside the policy that predicts the ground truth contact positions. Finally, we demonstrate the successful sim-to-real transfer for the DLR-Hand II equipped with a tactile skin.

cs.RO

参考文献 (16)

Fine Manipulation Using a Tactile Skin: Learning in Simulation and Sim-to-Real Transfer

Ulf Kasolowsky, Berthold Bäuml

2024 5 引用 ⭐ 高影响力查看解读 →

OpenAI Gym

Greg Brockman, Vicki Cheung, Ludwig Pettersson 等

2016 5545 引用查看解读 →

Composing Dextrous Grasping and In-Hand Manipulation via Scoring with a Reinforcement Learning Critic

Lennart Röstel, Dominik Winkelbauer, Johannes Pitz 等

2025 6 引用查看解读 →

Solving Rubik's Cube with a Robot Hand

OpenAI, Ilge Akkaya, Marcin Andrychowicz 等

2019 1449 引用查看解读 →

Inter-finger Small Object Manipulation With DenseTact Optical Tactile Sensor

Won Kyung Do, Bianca Aumann, Camille Chungyoun 等

2023 17 引用查看解读 →

In-Hand Singulation and Scooping Manipulation with a 5 DOF Tactile Gripper

Yuhao Zhou, Pokuang Zhou, Shaoxiong Wang 等

2024 8 引用查看解读 →

Learning Purely Tactile In-Hand Manipulation with a Torque-Controlled Hand

Leon Sievers, Johannes Pitz, B. Bäuml

2022 54 引用查看解读 →

DLR-Hand II: next generation of a dextrous robot hand

J. Butterfaß, M. Grebenstein, Hong Liu 等

2001 920 引用

Agile Justin: An upgraded member of DLR's family of lightweight and torque controlled humanoids

B. Bäuml, Tobias Hammer, R. Wagner 等

2014 32 引用

Learning to Pick by Digging: Data-Driven Dig-Grasping for Bin Picking from Clutter

Chao Zhao, Zhekai Tong, Juan Rojas 等

2022 13 引用

Blind Bin Picking of Small Screws Through In-finger Manipulation With Compliant Robotic Fingers

Matthew Ishige, T. Umedachi, Yoshihisa Ijiri 等

2020 7 引用

MuJoCo: A physics engine for model-based control

E. Todorov, Tom Erez, Yuval Tassa

2012 7244 引用

Vision-Sensorless Bin-Picking System Using Compliant Fingers with Proximity Sensors

Michihisa Ohara, Keisuke Koyama, Kensuke Harada

2025 1 引用

Learning dexterous in-hand manipulation

Marcin Andrychowicz, Bowen Baker, Maciek Chociej 等

2018 2169 引用查看解读 →

Proximal Policy Optimization Algorithms

John Schulman, Filip Wolski, Prafulla Dhariwal 等

2017 27889 引用查看解读 →

Stable-Baselines3: Reliable Reinforcement Learning Implementations

A. Raffin, Ashley Hill, A. Gleave 等

2021 2818 引用

Learning Controlled Separation of Small Objects Between Two Fingers with a Tactile Skin

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

PPO（Proximal Policy Optimization，近端策略优化）

稀疏奖励（Sparse Reward）

空间分辨触觉皮肤（Spatially-Resolved Tactile Skin）

MuJoCo（Multi-Joint dynamics with Contact）

域随机化（Domain Randomization）

接触点位置估计器（Contact Point Estimator）

深度强化学习（Deep Reinforcement Learning）

仿真迁移（Sim-to-Real Transfer）

开放问题 这项研究留下的未解疑问

应用场景

近期应用

微型装配线自动化

微型包装与分拣

医疗微操作

远期愿景

自主微装配与制造

微型机器人普及化

原文摘要

参考文献 (16)

相关论文

Increasing Resilience of Continuum Robots via Motion Planning Algorithms

ARC: Adaptive Robust Joint State and Covariance Estimation

Do as I Do: Dexterous Manipulation Data from Everyday Human Videos

Observability and Consistency Analysis for Visual-Inertial Navigation with Anchored Feature Parameterizations

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

R2RDreamer: 3D-aware Data Augmentation for Spatially-generalized 2D Manipulation Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问