Preference-Calibrated Human-in-the-Loop Reinforcement Learning for Robotic Manipulation

TL;DR

提出偏好校准的HIL-RL框架PACT，通过识别次优段落校正Q值，提升机器人操作成功率24.5%，收敛速度提升1.3倍。

cs.RO 🔴 高级 2026-06-03 56 次浏览

Zeyi Liu Guangyao Liu Yinuo Qu Yuquan Xue Bofang Jia Chunhua Yang Weihua Gui Keke Huang Ziwei Wang

强化学习机器人操控偏好学习人机交互样本效率

核心发现

方法论

本文提出的PACT框架融合了偏好信号、任务进展模型和段落级别的Q值校正机制。首先，利用模仿学习训练的任务进展模型识别次优段落；其次，通过人类干预产生的偏好对比，定义反事实优势值，调整对应段落的Bellman目标，抑制Q值的过度估计；最后，将偏好信号引入策略优化中，直接引导策略向人类偏好行为靠拢。该方法在五个真实机器人操控任务中实现了成功率提升24.5%，训练速度提升1.3倍，有效缓解了传统HIL-RL中Q值膨胀和偏差问题。

关键结果

在五个真实机器人操控任务中，PACT的平均成功率由58.0%提升至82.5%，提升幅度达24.5%，显著优于HIL-SERL的表现。训练时间缩短至63分钟，比HIL-SERL快约17分钟，体现了样本利用效率的提升。干预率从47.1%下降到32.3%，说明模型在减少人类干预的同时，保持甚至提升了任务成功率。Q值偏差分析显示，PACT在次优段落中的Q值过估计明显减弱，验证了偏好校正机制的有效性。
此外，模型中的任务进展估计器成功定位了多种典型失败行为，如插入时的犹豫、抓取错误和路径偏差，验证了段落识别的有效性。通过偏好对比，反事实优势值的引入有效抑制了Q值的膨胀，提升了策略的稳定性和样本效率。 Ablation研究显示，Critic校正和Actor偏好引导两者互补，共同推动了性能提升。
该方法的创新点在于将人类干预产生的隐式偏好信号用于段落级别的Q值校正，突破了传统基于全轨迹的奖励塑形限制。结合任务进展模型实现了对次优行为的细粒度识别与校正，显著改善了强化学习在实际机器人中的样本利用率和收敛速度。

研究意义

该研究在机器人操控领域具有重要意义，突破了传统HIL-RL中Q值膨胀和偏差的问题，为实现高效、稳健的机器人自主学习提供了新思路。通过引入偏好校正机制，有效缓解了样本稀疏和偏差累积的难题，推动了强化学习在复杂长时序任务中的应用落地。其在五个真实机器人任务中的优异表现，验证了方法的实用性和推广潜力，为未来机器人自主学习的研究提供了理论基础和技术路径。

技术贡献

本文提出的PACT框架在强化学习中首次系统性引入偏好信号进行段落级Q值校正，结合任务进展模型实现次优段落的自动识别。创新性地设计了反事实优势值，用于校正Bellman目标，抑制Q值过估计。策略方面，采用偏好辅助的策略优化，将人类偏好直接引入连续动作空间的策略学习中。实验中，结合多模态感知和自监督学习，展现出在真实机器人环境中的优越性能。该方法在样本效率和任务成功率方面均优于现有的HIL-RL技术，具有显著的工程应用价值。

新颖性

本研究的核心创新在于将人类干预产生的隐式偏好信号用于段落级别的Q值校正，首次实现了利用偏好信息进行细粒度的信用重分配。不同于传统的全轨迹奖励塑形或全局Q值校正，本文引入偏好对比机制，结合任务进展模型，实现了对次优行为的精准识别与校正。这一机制极大地改善了Q值膨胀问题，推动了人机协同强化学习在机器人操控中的应用前沿。

局限性

该方法依赖于模仿学习训练的任务进展模型，可能在非单调或复杂长时序任务中表现不佳，存在识别偏差的风险。
偏好校正机制主要抑制Q值膨胀，未能实现完全的逐步价值校准，对于极端偏差行为仍需进一步优化。
模型在高复杂度、多模态感知环境中的鲁棒性尚未充分验证，未来需结合更丰富的感知信息和语义理解进行改进。

未来方向

未来将结合语义理解和预训练的任务表示，提升任务进展模型的鲁棒性和泛化能力。同时，探索多模态偏好信号的自动提取与融合，增强模型对复杂场景的适应性。此外，计划将偏好校正机制扩展到多智能体协作和长时序任务中，以实现更广泛的自主机器人应用。

AI 总览摘要

在机器人自主学习的研究中，样本效率和任务成功率一直是核心挑战。传统强化学习方法在复杂环境中面临数据稀缺和偏差累积的问题，尤其是在真实机器人操作中，样本采集成本高昂且安全风险大。人机交互强化学习（Human-in-the-Loop RL, HIL-RL）通过引入人类干预，显著提升了样本利用率，但仍存在对所有轨迹一视同仁的信用分配问题，导致Q值膨胀和学习偏差。为解决这一难题，本文提出了偏好校准的HIL-RL框架——PACT。该方法通过识别次优行为段落，利用人类干预产生的偏好信号，动态调整Q值估计，抑制过度乐观的价值膨胀，从而提升策略的稳健性和样本效率。

PACT的核心机制包括：首先，训练一个基于模仿学习的任务进展模型，自动识别潜在的次优段落；其次，利用人类干预动作与策略动作的偏好对比，定义反事实优势值，用于校正对应段落的Bellman目标；最后，将偏好信号引入策略优化中，直接引导策略向人类偏好行为靠拢。该框架在五个真实机器人操控任务中进行了验证，结果显示成功率提升24.5%，训练时间缩短1.3倍，干预率显著降低。

实验结果表明，偏好校正机制有效缓解了Q值膨胀问题，提高了策略的稳定性和样本利用率。任务进展模型成功定位了多种典型失败行为，为后续的Q值校正提供了可靠依据。 Ablation研究进一步验证了Critic校正和Actor偏好引导的互补性。该研究的创新点在于首次系统性将偏好信号引入段落级信用重分配，突破了传统奖励塑形的局限，为机器人自主学习提供了新思路。未来，结合语义理解和多模态偏好信号，将进一步提升模型的鲁棒性和泛化能力，推动机器人自主学习迈向更高水平。

深度分析

研究背景

机器人操控中的强化学习经历了从基于模型的算法到深度强化学习的快速发展。早期工作如Deep Q-Network (DQN)和Deep Deterministic Policy Gradient (DDPG)在模拟环境中取得突破，但在真实机器人中面临样本低效和安全风险。近年来，模仿学习、迁移学习和预训练模型被引入以提升样本效率，例如利用预训练的视觉模型和任务表示。人机交互强化学习（HIL-RL）作为一种结合人类专家知识的策略，逐渐成为研究热点。HIL-SERL等方法通过结合离线示范和在线交互，显著改善了机器人在复杂任务中的表现，但仍存在对所有轨迹一视同仁的问题，导致Q值偏差和学习偏差。传统方法如Double DQN、TD3和CQL主要通过 critic 改进或奖励塑形缓解Q值膨胀，但未能解决轨迹内部的细粒度信用分配问题。本文的创新在于利用干预产生的偏好信号，结合任务进展模型，实现段落级的Q值校正，推动了HIL-RL在实际机器人中的应用边界。

核心问题

在真实机器人操作中，成功轨迹常包含次优行为段，传统强化学习方法在训练时将所有状态转移视作同质样本，导致Q值在次优段被过度估计。这种偏差不仅影响策略的稳定性，还会引导策略强化错误行为，延长收敛时间。人类干预虽能修正偏差，但频繁干预会增加人力成本，降低自主性。如何在利用干预信号的同时，避免Q值膨胀，提升样本效率，成为亟待解决的核心问题。现有方法缺乏对轨迹内部异质性的细粒度处理，难以实现高效、稳健的学习目标。

核心创新

本研究的主要创新在于引入偏好信号进行段落级Q值校正，具体包括：1) 设计任务进展模型自动识别次优段落，避免手工标注；2) 利用人类干预动作与策略动作的偏好对比，定义反事实优势值，抑制Q值膨胀；3) 将偏好信号引入连续动作空间的策略优化中，直接引导策略向人类偏好行为靠拢。这一机制突破了传统全轨迹奖励塑形的局限，实现了细粒度的信用重分配，有效缓解Q值偏差，提升了样本利用效率和训练速度。

方法详解

�� 任务建模：将机器人操控问题定义为马尔可夫决策过程（MDP），目标是最大化累计折扣回报。
�� 任务进展模型：采用多模态感知（图像和本体信息）编码器，训练一个自监督的任务进展估计器，识别轨迹中的次优段落。
�� 次优段落识别：利用模型预测的任务进展值，检测下降明显或未恢复的段落，作为潜在的次优行为区间。
�� 偏好对比构建：在干预点，利用人类干预动作与策略动作构建偏好对，定义反事实优势值，反映偏差程度。
�� Q值校正：将偏好优势值按位置加权，调整对应段落的Bellman目标，抑制Q值膨胀。
�� 策略引导：在连续动作空间中，将偏好信号引入策略优化，直接引导策略向人类偏好靠拢。
�� 训练流程：结合Critic的Q值校正和Actor的偏好引导，进行端到端训练，实时调整策略参数。

实验设计

�� 数据集：在五个真实机器人任务（按难度递增：Press、Insertion、Pick、Pick & Place、Assembly）中采集20条示范轨迹，用于训练任务进展模型和初始化强化学习。
�� 评估指标：成功率、干预率、训练时间，比较HIL-SERL和PACT的性能。
�� 实验设置：在Galaxea A1X 6-DoF机械臂上进行，控制变量包括学习率、偏好校正强度等。
�� Ablation分析：剔除Critic校正或Actor偏好引导，验证各组件贡献。
�� 统计分析：多次重复实验，计算平均成功率、干预率和训练时间，确保结果稳健。

结果分析

�� 结果显示，PACT在五个任务中的平均成功率由58.0%提升至82.5%，干预率由47.1%降至32.3%，训练时间缩短至63分钟。特别是在复杂任务Assembly中，成功率从10%提升至62.5%，训练时间缩短约17分钟。
�� Q值偏差分析表明，PACT在次优段落中有效抑制了Q值的过度估计，Critic偏差由正向偏差变为负向偏差，验证了偏好校正的有效性。
�� 任务进展模型成功定位了多种失败行为，验证了段落识别的准确性。 Ablation研究显示，Critic校正和Actor偏好引导两者互补，共同提升性能。

应用场景

�� 立即应用：该方法可用于工业机器人装配、仓储自动化等场景，提升机器人自主学习效率，减少人工干预。
�� 长远愿景：未来可结合语义理解和预训练模型，扩展到多智能体协作、长时序复杂任务，实现更智能、更自主的机器人系统。

局限与展望

�� 依赖模仿学习的任务进展模型，可能在非单调或复杂环境中表现不佳。
�� 仅在段落层面进行Q值校正，未实现逐步精细校准，仍存在偏差风险。
�� 模型在多模态感知环境中的鲁棒性有待验证，未来需结合更丰富的感知信息和语义理解进行改进。

通俗解读非专业人士也能看懂

想象你在教一个机器人做家务，比如整理房间。你告诉它怎么把玩具放到箱子里，但有时候它会走错路或者放错地方。每次你看到它走错了，就会给它一些建议，比如‘不对，应该放到这里’，但如果每次都告诉它全部正确的步骤，它可能会变得依赖你，学得慢。这个研究就像是教它在过程中自己判断哪里走错了，然后只告诉它偏离正确路径的部分，让它自己改正。通过这种方式，机器人可以更快学会正确的动作，而且不需要你一直盯着它。研究中用到的‘偏好信号’就像你告诉它“我喜欢你把玩具放到这里”，而不是“你必须这么做”。这样，机器人学会了在正确的地方自己做决定，避免走弯路。最终，它能在更短时间内学会整理房间，还能减少你干预的次数，就像你教孩子学会自己整理房间一样。

简单解释像给14岁少年讲一样

想象你在教你的朋友玩一个复杂的电子游戏。你们一起玩了很多次，有时候他会走错路或者做出不好的决定。每次你看到他走错了，你会告诉他“嘿，你可以试试这样做”，但你不会每次都告诉他所有的规则。这个研究就像是教他在游戏中自己判断哪里走错了，然后只告诉他偏离正确的部分，让他自己改正。这样，他学得更快，也不用你一直盯着他看。研究中用到的‘偏好信号’就像你说“我喜欢你在这个位置做这个动作”，而不是“你一定要这么做”。通过这种方式，他可以学会在正确的地方自己做决定，避免重复错误。最终，他能更快掌握游戏技巧，还能减少你干预的次数，就像你教弟弟妹妹自己整理房间一样。

术语表

Preference Signal (偏好信号)

在干预过程中，反映人类偏好或修正意图的隐式或显式指示，用于引导学习策略。技术上，表现为偏好对比或偏好奖励。

在论文中，偏好信号用于定义偏好对，从而校正Q值和引导策略。

Q-value (Q值)

在强化学习中，表示在某状态下采取某动作的预期累计回报。技术上，Q值由Bellman方程迭代估算。

论文中，Q值被用作策略优化的基础，但在次优段会出现过度估计。

Bellman Target (Bellman目标)

用于更新Q值的目标值，基于当前Q值和奖励信号，遵循Bellman方程。技术上，通常为rt + γ * max_a' Q(st+1, a')。

论文中，偏好校正机制调整Bellman目标以抑制Q值膨胀。

Actor-Critic (演员-评论家)架构

一种强化学习架构，包含策略网络（Actor）和价值网络（Critic），共同优化策略。技术上，Actor输出动作分布，Critic估算价值。

论文中，Critic用偏好校正的Q值指导Actor学习。

Progress Model (任务进展模型)

通过多模态感知数据估算任务完成程度的模型，用于识别潜在的次优行为段。技术上，采用自监督训练，输出任务进展分数。

论文中，识别次优段落，指导Q值校正。

反事实优势 (Counterfactual Advantage)

衡量偏好违背程度的指标，用于校正Q值，反映偏好信号与当前Q值的偏差。技术上，基于偏好对比的差值计算。

论文中，用于调整次优段的Bellman目标，抑制Q值膨胀。

偏好辅助策略优化 (Preference Auxiliary Policy Optimization)

在策略学习中引入偏好信号，直接引导策略向人类偏好行为靠拢，改善样本效率。技术上，结合偏好对比的对数概率目标。

论文中，将偏好信号融入连续动作空间策略优化。

样本效率 (Sample Efficiency)

指在强化学习中，达到一定性能所需的训练样本数量。高样本效率意味着用更少数据实现更好性能。

论文中，强调方法在真实机器人中实现快速学习。

偏差校正 (Bias Correction)

调整估算值以减少偏差或偏差积累的技术，确保估值的准确性。技术上，常用偏差校正机制或偏好引导。

论文中，利用偏好信号校正Q值膨胀。

长时序任务 (Long-Horizon Tasks)

涉及多个连续步骤、复杂目标的任务，通常具有长时间依赖关系。技术上，需考虑任务的延续性和偏差累积。

论文目标之一是提升在复杂长时序任务中的学习效率。

开放问题这项研究留下的未解疑问

1 未来需要结合语义理解和预训练模型，提升任务进展模型在复杂环境中的鲁棒性和泛化能力，尤其是在非单调或多模态场景下的表现。
2 偏好信号的自动提取与融合机制仍需优化，特别是在多智能体和长时序任务中，如何高效利用偏好信息实现更优的信用分配。
3 在极端复杂环境中，模型的实时性和鲁棒性仍需提升，结合预训练和语义理解，增强系统适应性。
4 推广到多任务、多场景的泛化能力仍需大量实验验证，确保方法的广泛适用性。
5 模型在高复杂度、多模态感知环境中的表现和鲁棒性有待提升，未来应结合更丰富的感知和语义信息进行优化。

应用场景

近期应用

工业机器人装配

利用PACT提升机器人在装配线上的自主学习能力，减少人工干预，提高生产效率。要求机器人具备多模态感知能力和自主识别次优行为的能力，适用于汽车制造、电子装配等行业。

仓储自动化

在仓库管理中应用PACT，使机器人自主学习搬运、分类任务，降低人力成本，提升仓储效率。依赖高质量示范数据和偏好信号的实时采集。

医疗机器人辅助操作

在手术或康复机器人中，利用偏好校正机制优化操作策略，减少干预频次，提升操作安全性和效率。需要结合医疗场景的特殊感知和偏好定义。

远期愿景

自主机器人系统的普及

未来，结合偏好校正和多模态感知，发展具有自主学习和适应能力的机器人，广泛应用于家庭、工业、医疗等领域，逐步实现无人化、智能化。

人机协同的智能系统

实现人类与机器人无缝协作，偏好信号作为沟通桥梁，推动智能系统在复杂环境中的自主决策和长时序任务中的表现，推动智能制造和服务机器人行业的变革。

原文摘要

Human-in-the-loop reinforcement learning (HIL-RL) improves sample efficiency in real-robot manipulation through online human intervention. However, successful trajectories may include suboptimal actions that deviate from the desired task-execution path and force human intervention. Existing HIL-RL methods typically apply the consistent credit assignment principle to all transitions, uniformly propagating discounted terminal rewards through suboptimal segments, ignoring the actual contribution of each transition to task success. This overestimates Q-values for critic learning and indirectly misguides actor updates toward suboptimal behavior patterns. To this end, we propose PACT, a Preference-calibrated Actor-Critic Training framework that leverages the implicit preference signals induced by intervention to perform credit reassignment on identified suboptimal segments while directly guiding policy training for unbiased critic-actor learning. Specifically, we first design a progress model that learns from human demonstration and identifies suboptimal segments for credit correction. Then, from the human action and resampled policy action at the intervention state, we build preference pairs to define a counterfactual advantage that penalizes Bellman targets of the identified suboptimal segment, enabling directional credit calibration. Moreover, we directly align the policy with human corrective actions in the bounded mean space, providing an additional signal beyond critic-guided updates. Across five real-robot manipulation tasks, PACT improves the average success rate by 24.5% and achieves 1.3 times faster convergence, thereby improving both RL sample efficiency and performance. Code is available at https://anonymous.4open.science/r/HILRL-A1X-BC05.

cs.RO

参考文献 (20)

Exploration-Guided Reward Shaping for Reinforcement Learning under Sparse Rewards

Rati Devidze, Parameswaran Kamalaruban, A. Singla

2022 101 引用

SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning

Jianlan Luo, Zheyuan Hu, Charles Xu 等

2024 140 引用查看解读 →

Toward next-generation learned robot manipulation

Jinda Cui, J. Trinkle

2021 131 引用

DriveIRL: Drive in Real Life with Inverse Reinforcement Learning

Tung Phan-Minh, Forbes Howington, Ting-Sheng Chu 等

2023 34 引用

Sim-to-Real Model-Based and Model-Free Deep Reinforcement Learning for Tactile Pushing

Max Yang, Yijiong Lin, Alex Church 等

2023 26 引用查看解读 →

HG-DAgger: Interactive Imitation Learning with Human Experts

Michael Kelly, Chelsea Sidrane, K. Driggs-Campbell 等

2018 336 引用查看解读 →

Transferring policy of deep reinforcement learning from simulation to reality for robotics

Hao Ju, Rongshun Juan, R. Gomez 等

2022 139 引用

Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods

Yuji Cao, Huan Zhao, Yuheng Cheng 等

2024 207 引用查看解读 →

Efficient Online Reinforcement Learning with Offline Data

Philip J. Ball, Laura M. Smith, Ilya Kostrikov 等

2023 374 引用查看解读 →

Reinforcement learning for robot research: A comprehensive review and open issues

Tengteng Zhang, Hongwei Mo

2021 144 引用

Guided Uncertainty-Aware Policy Optimization: Combining Learning and Model-Based Strategies for Sample-Efficient Policy Learning

Carlos Florensa, Jonathan Tremblay, Nathan D. Ratliff 等

2020 70 引用查看解读 →

Model-Based Reinforcement Learning via Meta-Policy Optimization

Ignasi Clavera, Jonas Rothfuss, John Schulman 等

2018 254 引用查看解读 →

ORPO: Monolithic Preference Optimization without Reference Model

Jiwoo Hong, Noah Lee, James Thorne

2024 590 引用查看解读 →

Self-Supervised Online Reward Shaping in Sparse-Reward Environments

F. Memarian, Wonjoon Goo, Rudolf Lioutikov 等

2021 70 引用查看解读 →

ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy

Yuhui Chen, Shuai Tian, Shugao Liu 等

2025 110 引用查看解读 →

E2HiL: Entropy-Guided Sample Selection for Efficient Real-World Human-in-the-Loop Reinforcement Learning

Haoyuan Deng, Yudong Lin, Yuanjiang Xue 等

2026 1 引用查看解读 →

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

Jianlan Luo, Charles Xu, Jeffrey Wu 等

2024 153 引用查看解读 →

A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning

S. Ross, Geoffrey J. Gordon, J. Bagnell

2010 4050 引用查看解读 →

Deep Reinforcement Learning from Human Preferences

P. Christiano, Jan Leike, Tom B. Brown 等

2017 5304 引用查看解读 →

Real-world robot applications of foundation models: a review

Kento Kawaharazuka, T. Matsushima, Andrew Gambardella 等

2024 117 引用查看解读 →

Preference-Calibrated Human-in-the-Loop Reinforcement Learning for Robotic Manipulation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Preference Signal (偏好信号)

Q-value (Q值)

Bellman Target (Bellman目标)

Actor-Critic (演员-评论家)架构

Progress Model (任务进展模型)

反事实优势 (Counterfactual Advantage)

偏好辅助策略优化 (Preference Auxiliary Policy Optimization)

样本效率 (Sample Efficiency)

偏差校正 (Bias Correction)

长时序任务 (Long-Horizon Tasks)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

工业机器人装配

仓储自动化

医疗机器人辅助操作

远期愿景

自主机器人系统的普及

人机协同的智能系统

原文摘要

参考文献 (20)

相关论文

Increasing Resilience of Continuum Robots via Motion Planning Algorithms

ARC: Adaptive Robust Joint State and Covariance Estimation

Do as I Do: Dexterous Manipulation Data from Everyday Human Videos

Observability and Consistency Analysis for Visual-Inertial Navigation with Anchored Feature Parameterizations

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

R2RDreamer: 3D-aware Data Augmentation for Spatially-generalized 2D Manipulation Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问