Vision-Based Safe Human-Robot Collaboration with Uncertainty Guarantees

TL;DR

提出了一种结合不确定性估计和OOD检测的视觉人机协作框架，显著提高了安全性。

cs.RO 🔴 高级 2026-04-17 46 次浏览

Jakob Thumm Marian Frei Tianle Ni Matthias Althoff Marco Pavone

人机协作不确定性估计视觉识别运动预测安全保障

核心发现

方法论

本文提出了一种基于视觉的人体姿态估计和运动预测框架，结合了异质性不确定性估计和OOD检测，确保高概率的安全性。框架通过YOLO26进行2D姿态估计，并使用不确定性感知的三角测量法获取3D姿态及其协方差。随后，利用DCT变换器模型进行未来3D姿态预测，并通过Cholesky分解法确保协方差矩阵的有效性。最终，采用符合性预测集来覆盖运动预测中的不确定性。

关键结果

在Human3.6M数据集上进行评估，框架在MPJPE指标上表现优于现有模型，尤其是在80ms和160ms的时间点上，误差分别为18.4和28.1。
符合性预测集在覆盖率上达到98.25%，相比ISO 13855:2010减少了预测体积。
在真实世界的实验中，OOD处理机制减少了无效运动预测的中断率，提高了预测的有效性。

研究意义

该研究在学术界和工业界具有重要意义。它解决了长期以来人机协作中的安全性问题，通过结合不确定性估计和OOD检测，提供了可认证的安全保障。这一框架不仅提高了预测的准确性，还减少了保守性，适用于多种实际应用场景，如工业自动化和智能家居。

技术贡献

本文的技术贡献在于提出了一种结合不确定性传播和符合性预测集的新框架，显著提高了人机协作的安全性。与现有方法相比，该框架提供了新的理论保证和工程可能性，尤其是在处理OOD输入和减少预测保守性方面表现突出。

新颖性

本研究首次将符合性预测集应用于人机协作中的运动预测，结合不确定性估计和OOD检测，提供了前所未有的安全保障。与现有工作相比，该框架在处理OOD输入和不确定性传播方面具有显著创新。

局限性

在某些极端情况下，框架可能无法准确处理快速运动，导致预测误差增加。
对摄像头校准的依赖可能影响3D姿态估计的准确性。
目前的OOD检测机制在处理复杂环境变化时可能存在不足。

未来方向

未来的研究方向包括将框架与多种传感器模态融合，进一步提高安全性和鲁棒性。此外，还需研究如何在复杂环境中有效处理人机交互，以及从RGB-D输入中进行3D姿态估计。

AI 总览摘要

随着自动化技术的进步，机器人在工业、家庭和医疗等领域的应用日益广泛。然而，人机协作中的安全性问题一直是一个重要挑战。现有方法大多依赖于标记的运动跟踪系统，限制了其部署潜力。此外，许多方法在处理分布外（OOD）输入时可能会失败，无法提供可靠的安全保障。

本文提出了一种新的基于视觉的人机协作框架，通过结合不确定性估计和OOD检测，提供了高概率的安全性。框架使用YOLO26进行2D姿态估计，并通过不确定性感知的三角测量法获取3D姿态及其协方差。随后，利用DCT变换器模型进行未来3D姿态预测，并通过Cholesky分解法确保协方差矩阵的有效性。最终，采用符合性预测集来覆盖运动预测中的不确定性。

该框架在Human3.6M数据集上的评估显示，其在MPJPE指标上优于现有模型，尤其是在80ms和160ms的时间点上，误差分别为18.4和28.1。此外，符合性预测集在覆盖率上达到98.25%，相比ISO 13855:2010减少了预测体积。在真实世界的实验中，OOD处理机制减少了无效运动预测的中断率，提高了预测的有效性。

这一研究在学术界和工业界具有重要意义。它解决了长期以来人机协作中的安全性问题，通过结合不确定性估计和OOD检测，提供了可认证的安全保障。这一框架不仅提高了预测的准确性，还减少了保守性，适用于多种实际应用场景，如工业自动化和智能家居。

然而，该框架在某些极端情况下可能无法准确处理快速运动，导致预测误差增加。此外，对摄像头校准的依赖可能影响3D姿态估计的准确性。目前的OOD检测机制在处理复杂环境变化时可能存在不足。未来的研究方向包括将框架与多种传感器模态融合，进一步提高安全性和鲁棒性。此外，还需研究如何在复杂环境中有效处理人机交互，以及从RGB-D输入中进行3D姿态估计。

深度分析

研究背景

随着机器人技术的快速发展，机器人在工业、家庭和医疗等领域的应用日益广泛。然而，人机协作中的安全性问题一直是一个重要挑战。现有方法大多依赖于标记的运动跟踪系统，限制了其部署潜力。此外，许多方法在处理分布外（OOD）输入时可能会失败，无法提供可靠的安全保障。近年来，研究人员开始关注如何在不依赖标记的情况下实现准确的人体姿态估计和运动预测。特别是，基于视觉的方法因其灵活性和成本效益受到广泛关注。然而，这些方法在处理不确定性和OOD输入方面仍面临挑战。

核心问题

人机协作中的安全性问题是一个核心挑战。为了确保安全，机器人需要准确地感知人体姿态，预测其运动，并控制自身以避免与人发生碰撞。现有方法大多依赖于标记的运动跟踪系统，限制了其部署潜力。此外，许多方法在处理分布外（OOD）输入时可能会失败，无法提供可靠的安全保障。因此，如何在不依赖标记的情况下实现准确的人体姿态估计和运动预测，并提供可靠的安全保障，是一个亟待解决的问题。

核心创新

本文提出了一种新的基于视觉的人机协作框架，通过结合不确定性估计和OOD检测，提供了高概率的安全性。具体创新包括：

1) 使用YOLO26进行2D姿态估计，并通过不确定性感知的三角测量法获取3D姿态及其协方差。这一方法提高了姿态估计的准确性和鲁棒性。

2) 利用DCT变换器模型进行未来3D姿态预测，并通过Cholesky分解法确保协方差矩阵的有效性。这一方法减少了预测的保守性，提高了预测的准确性。

3) 采用符合性预测集来覆盖运动预测中的不确定性。这一方法提供了可认证的安全保障，适用于多种实际应用场景。

方法详解

本文的方法包括以下步骤：

�� 使用YOLO26进行2D姿态估计，返回2D均值和协方差矩阵。
�� 通过不确定性感知的三角测量法获取3D姿态及其协方差。
�� 利用DCT变换器模型进行未来3D姿态预测，输入为历史姿态和协方差，输出为未来姿态和协方差。
�� 通过Cholesky分解法确保协方差矩阵的有效性，避免无效矩阵。
�� 采用符合性预测集来覆盖运动预测中的不确定性，确保高概率的安全性。

实验设计

实验在Human3.6M数据集上进行，使用S1, S6, S7, S8和S9进行训练，S11进行验证，S5进行测试。主要评估指标为MPJPE，实验设置为I=50, KP=10, cam=25 fps, OOD=95%。与HisRep, ST-DGCN, ST-Trans和SiMLPe等基线模型进行对比。实验还包括在真实世界的人机协作场景中进行测试，验证框架的实际应用效果。

结果分析

实验结果显示，框架在MPJPE指标上优于现有模型，尤其是在80ms和160ms的时间点上，误差分别为18.4和28.1。此外，符合性预测集在覆盖率上达到98.25%，相比ISO 13855:2010减少了预测体积。在真实世界的实验中，OOD处理机制减少了无效运动预测的中断率，提高了预测的有效性。这些结果表明，框架在提高预测准确性和减少保守性方面具有显著优势。

应用场景

该框架适用于多种实际应用场景，如工业自动化、智能家居和医疗机器人。在工业自动化中，机器人可以在不依赖标记的情况下实现安全的人机协作，提高生产效率。在智能家居中，机器人可以准确感知和预测人类行为，提供个性化服务。在医疗机器人中，框架可以帮助机器人在复杂环境中安全操作，减少对患者的潜在风险。

局限与展望

尽管框架在实验中表现出色，但在某些极端情况下可能无法准确处理快速运动，导致预测误差增加。此外，对摄像头校准的依赖可能影响3D姿态估计的准确性。目前的OOD检测机制在处理复杂环境变化时可能存在不足。未来的研究方向包括将框架与多种传感器模态融合，进一步提高安全性和鲁棒性。此外，还需研究如何在复杂环境中有效处理人机交互，以及从RGB-D输入中进行3D姿态估计。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭，你需要确保不会碰到其他人。你需要知道他们在哪里，接下来会做什么。我们的框架就像一个聪明的助手，它能用眼睛观察厨房里的每个人，然后预测他们的动作。这样，你就可以安全地在厨房里移动，而不会撞到别人。这个助手不仅能看到每个人的位置，还能判断他们的动作是否正常。如果有人突然做出奇怪的动作，它会提醒你小心。这个助手还很聪明，它能根据过去的经验来预测未来的动作。就像你知道朋友在厨房里通常会怎么走动一样。我们的框架就是这样一个聪明的助手，它能帮助机器人在复杂的环境中安全地工作。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个游戏，里面有很多机器人和人类角色。你需要确保机器人不会撞到人类角色。我们的研究就是为了让机器人更聪明，它们可以用“眼睛”看到人类角色的位置，然后预测他们接下来会怎么动。这样，机器人就能安全地在游戏里移动，而不会撞到人类角色。我们的方法就像给机器人装上了一个超级聪明的大脑，它能判断哪些动作是正常的，哪些是奇怪的。如果有奇怪的动作，它会提醒机器人小心。这个大脑还很聪明，它能根据过去的经验来预测未来的动作。就像你知道你的朋友在游戏里通常会怎么走动一样。我们的研究就是为了让机器人在游戏里变得更聪明，更安全！

术语表

YOLO26 (YOLO第26版)

一种用于目标检测的深度学习模型，能够快速准确地识别图像中的物体。

用于2D姿态估计，返回2D均值和协方差矩阵。

DCT变换器模型 (离散余弦变换变换器模型)

一种用于信号处理的模型，能够将时域信号转换为频域信号，以捕捉运动的频率特征。

用于未来3D姿态预测，输入为历史姿态和协方差。

Cholesky分解法 (Cholesky分解)

一种用于矩阵分解的数学方法，能够确保协方差矩阵的正定性。

用于确保协方差矩阵的有效性，避免无效矩阵。

符合性预测集 (Conformal Prediction Sets)

一种用于不确定性估计的方法，能够提供高概率的预测区间。

用于覆盖运动预测中的不确定性，确保高概率的安全性。

OOD检测 (分布外检测)

一种用于识别异常输入的方法，能够判断输入是否来自训练数据的分布。

用于检测姿态估计和运动预测中的异常输入。

MPJPE (平均关节位置误差)

一种用于评估3D姿态估计精度的指标，计算预测关节位置与真实位置的平均误差。

用于评估框架在Human3.6M数据集上的表现。

Human3.6M数据集

一个大规模的3D人体姿态数据集，包含多种日常活动的3D姿态数据。

用于训练和评估框架的3D姿态估计和运动预测性能。

异质性不确定性 (Heteroscedastic Aleatoric Uncertainty)

一种不确定性类型，表示数据中固有的随机性和噪声。

用于估计姿态和运动预测中的不确定性。

ISO 13855:2010标准

国际标准化组织发布的关于人体运动速度的标准，用于安全评估。

用于比较符合性预测集的覆盖率和预测体积。

SARA盾 (SARA Shield)

一种用于人机协作的安全框架，能够提供可认证的安全保障。

用于验证框架在真实世界人机协作场景中的应用效果。

开放问题这项研究留下的未解疑问

1 如何在复杂环境中有效处理人机交互仍是一个开放问题。目前的方法在处理快速运动和复杂环境变化时可能存在不足。需要进一步研究如何提高框架的鲁棒性和适应性。
2 如何将框架与多种传感器模态融合，以提高安全性和鲁棒性，是一个亟待解决的问题。现有方法主要依赖视觉输入，可能在某些情况下不够可靠。
3 如何在不依赖标记的情况下实现高精度的3D姿态估计仍是一个挑战。现有方法在处理摄像头校准误差时可能存在不足，需要进一步研究。
4 如何在不增加计算复杂度的情况下提高OOD检测的准确性是一个重要问题。现有方法在处理复杂环境变化时可能存在不足，需要进一步优化。
5 如何在不影响预测准确性的情况下减少预测保守性是一个值得研究的问题。现有方法在某些情况下可能过于保守，影响了实际应用效果。

应用场景

近期应用

工业自动化

在工业自动化中，机器人可以在不依赖标记的情况下实现安全的人机协作，提高生产效率。

智能家居

在智能家居中，机器人可以准确感知和预测人类行为，提供个性化服务，提升用户体验。

医疗机器人

在医疗机器人中，框架可以帮助机器人在复杂环境中安全操作，减少对患者的潜在风险。

远期愿景

多模态传感器融合

将框架与多种传感器模态融合，进一步提高安全性和鲁棒性，适用于更复杂的应用场景。

智能城市

在智能城市中，框架可以用于监控和预测人群行为，提升城市管理和公共安全。

原文摘要

We propose a framework for vision-based human pose estimation and motion prediction that gives conformal prediction guarantees for certifiably safe human-robot collaboration. Our framework combines aleatoric uncertainty estimation with OOD detection for high probabilistic confidence. To integrate our pipeline in certifiable safety frameworks, we propose conformal prediction sets for human motion predictions with high, valid confidence. We evaluate our pipeline on recorded human motion data and a real-world human-robot collaboration setting.

cs.RO cs.CV

参考文献 (20)

Learning Trajectory Dependencies for Human Motion Prediction

Wei Mao, Miaomiao Liu, M. Salzmann 等

2019 531 引用 ⭐ 高影响力查看解读 →

A General Safety Framework for Autonomous Manipulation in Human Environments

Jakob Thumm, Julian Balletshofer, Leonardo Maglanoc 等

2024 5 引用 ⭐ 高影响力查看解读 →

Multiple View Geometry in Computer Vision

Bernhard P. Wrobel

2001 18506 引用

SaRA: A Tool for Safe Human-Robot Coexistence and Collaboration through Reachability Analysis

Sven R. Schepp, Jakob Thumm, Stefan B. Liu 等

2022 27 引用

Provably Safe Deep Reinforcement Learning for Robotic Manipulation in Human Environments

Jakob Thumm, M. Althoff

2022 46 引用查看解读 →

Skeleton-RGB integrated highly similar human action prediction in human-robot collaborative assembly

Yaqian Zhang, Kai Ding, Jizhuang Hui 等

2024 64 引用

DE-TGN: Uncertainty-Aware Human Motion Forecasting Using Deep Ensembles

Kareem A. Eltouny, Wansong Liu, Sibo Tian 等

2023 19 引用查看解读 →

Plausible Uncertainties for Human Pose Regression

Lennart Bramlage, Michelle Karg, Cristóbal Curio

2023 15 引用

Human3.6M: Large Scale Datasets and Predictive Methods for 3D Human Sensing in Natural Environments

Catalin Ionescu, Dragos Papava, Vlad Olaru 等

2014 3811 引用

Sketched Lanczos uncertainty score: a low-memory summary of the Fisher information

M. Miani, Lorenzo Beretta, Søren Hauberg

2024 5 引用查看解读 →

Enhanced Performance of Human-Robot Collaboration Using Braking Surfaces and Trajectory Scaling

Bakir Lacevic, Abdalla Reda Sobhy Ellithy Mahdy Newishy, A. Zanchettin 等

2023 3 引用

Safe Human-Robot Collaboration via Collision Checking and Explicit Representation of Danger Zones

Bakir Lacevic, A. Zanchettin, P. Rocco

2023 23 引用

Online verification of multiple safety criteria for a robot trajectory

Dario Beckert, Aaron Pereira, M. Althoff

2017 25 引用

Multimodal Active Measurement for Human Mesh Recovery in Close Proximity

Takahiro Maeda, Keisuke Takeshita, N. Ukita 等

2023 1 引用查看解读 →

Human Pose Regression with Residual Log-likelihood Estimation

Jiefeng Li, Siyuan Bian, Ailing Zeng 等

2021 285 引用查看解读 →

Covariance-Based Vector-Network-Analyzer Uncertainty Analysis for Time- and Frequency-Domain Measurements

A. Lewandowski, Dylan F. Williams, P. Hale 等

2010 82 引用

Multivariate Uncertainty in Deep Learning

Rebecca L. Russell, Christopher P. Reale

2019 87 引用查看解读 →

YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection

Ranjan Sapkota, R. H. Cheppally, Ajay Sharda 等

2025 32 引用查看解读 →

Safety in human-robot collaborative manufacturing environments: Metrics and control

A. Zanchettin, N. Ceriani, P. Rocco 等

2016 360 引用

Toward Reliable Human Pose Forecasting With Uncertainty

Saeed Saadatnejad, Mehrshad Mirmohammadi, Matin Daghyani 等

2023 14 引用查看解读 →

Vision-Based Safe Human-Robot Collaboration with Uncertainty Guarantees

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

YOLO26 (YOLO第26版)

DCT变换器模型 (离散余弦变换变换器模型)

Cholesky分解法 (Cholesky分解)

符合性预测集 (Conformal Prediction Sets)

OOD检测 (分布外检测)

MPJPE (平均关节位置误差)

Human3.6M数据集

异质性不确定性 (Heteroscedastic Aleatoric Uncertainty)

ISO 13855:2010标准

SARA盾 (SARA Shield)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

工业自动化

智能家居

医疗机器人

远期愿景

多模态传感器融合

智能城市

原文摘要

参考文献 (20)

相关论文

Passage-Aware Structural Mapping for RGB-D Visual SLAM

Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

Pushing Radar Odometry Beyond the Pavement: Current Capabilities and Challenges

Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations

Computational Design and Co-Robotic Fabrication for Material Reuse in Architecture

Guiding Vector Field Generation via Score-based Diffusion Model

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问