Safe Control using Learned Safety Filters and Adaptive Conformal Inference

TL;DR

ACoFi方法结合学习的安全过滤器与自适应保序推断,提升控制系统安全性。

eess.SY 🔴 高级 2026-04-21 37 次浏览
Sacha Huriot Ihab Tabbara Hussein Sibai
安全控制 自适应推断 Hamilton-Jacobi 机器学习 高维系统

核心发现

方法论

本文提出了一种名为自适应保序过滤(ACoFi)的方法,该方法结合了基于Hamilton-Jacobi可达性分析的学习安全过滤器与自适应保序推断。ACoFi通过动态调整切换标准来应对预测误差,利用名义策略输出的可能安全值范围来量化安全评估中的不确定性。当该范围表明可能不安全时,过滤器会从名义策略切换到学习的安全策略。ACoFi保证了错误量化名义策略预测安全性的速率被用户定义的参数渐进上界,从而提供软安全保证。

关键结果

  • 在Dubins小车仿真和Safety Gymnasium环境中,ACoFi显著优于使用固定切换阈值的基线方法,表现为更高的学习安全值和更少的安全违规,尤其是在分布外场景中。
  • 在Dubins小车实验中,ACoFi在16次运行中保持了最小学习安全值,并避免了任何安全违规。相比之下,固定阈值方法在相同条件下表现较差。
  • 在Safety Gymnasium的CarGoal环境中,ACoFi在平均安全值和违规次数上均优于基线方法,且在目标达成率上与基线方法相近。

研究意义

本研究在高维控制系统中实现了更可靠的安全性,尤其是在分布外场景中。通过结合学习的Hamilton-Jacobi可达性分析与自适应保序推断,ACoFi方法提供了一种新的安全保证方式,能够动态适应预测误差。这一方法不仅在学术界具有重要意义,推动了安全控制领域的进步,也为工业界提供了更安全的自动化控制解决方案。

技术贡献

ACoFi方法的技术贡献在于其创新性地结合了学习的Hamilton-Jacobi可达性分析与自适应保序推断,提供了一种动态调整安全策略切换标准的机制。与现有方法相比,ACoFi能够在不确定性较高的情况下提供更可靠的安全性,并在分布外场景中表现出色。该方法还为未来的多步预测和连续时间控制任务提供了新的工程可能性。

新颖性

ACoFi方法首次将自适应保序推断应用于安全过滤器的设计中,解决了传统固定阈值方法在高维控制系统中的局限性。与现有的安全过滤器方法相比,ACoFi能够动态调整切换标准,从而更好地应对预测误差和不确定性。

局限性

  • ACoFi方法在早期违反安全约束时可能会变得过于保守,导致不必要的切换和任务完成速度的降低。
  • 该方法在多步预测和连续时间控制任务中的表现尚未经过充分验证,可能需要进一步的研究和优化。
  • 在某些情况下,ACoFi可能会过于依赖学习的安全策略,导致任务完成效率下降。

未来方向

未来的研究方向包括评估ACoFi在多步预测和连续时间控制任务中的有效性,以及探索其在多任务环境中的适应能力。此外,研究如何在不降低安全性的前提下提高任务完成效率也是一个值得关注的方向。

AI 总览摘要

在现代自动化控制系统中,安全性是一个至关重要的问题,尤其是在高维状态和控制空间中。传统的安全过滤器方法在处理这些复杂系统时面临着扩展性的问题。为了解决这一挑战,本文提出了一种名为自适应保序过滤(ACoFi)的新方法。ACoFi结合了基于Hamilton-Jacobi可达性分析的学习安全过滤器与自适应保序推断,通过动态调整切换标准来应对预测误差。实验结果表明,ACoFi在Dubins小车仿真和Safety Gymnasium环境中显著优于使用固定切换阈值的基线方法,表现为更高的学习安全值和更少的安全违规,尤其是在分布外场景中。ACoFi方法的技术贡献在于其创新性地结合了学习的Hamilton-Jacobi可达性分析与自适应保序推断,提供了一种动态调整安全策略切换标准的机制。与现有方法相比,ACoFi能够在不确定性较高的情况下提供更可靠的安全性,并在分布外场景中表现出色。尽管ACoFi在安全性方面取得了显著进展,但其在多步预测和连续时间控制任务中的表现尚未经过充分验证,可能需要进一步的研究和优化。未来的研究方向包括评估ACoFi在多步预测和连续时间控制任务中的有效性,以及探索其在多任务环境中的适应能力。此外,研究如何在不降低安全性的前提下提高任务完成效率也是一个值得关注的方向。总之,ACoFi为高维控制系统的安全性提供了一种新的解决方案,具有重要的学术和工业意义。

深度分析

研究背景

在自动化控制系统中,安全性一直是一个重要的研究课题。随着系统复杂性的增加,传统的安全过滤器方法在处理高维状态和控制空间时面临着扩展性的问题。Hamilton-Jacobi可达性分析和控制障碍函数等方法被广泛应用于设计安全过滤器,以保证控制系统的安全运行。然而,这些方法通常依赖于固定的阈值来评估动作的安全性,这在高维系统中可能不够可靠。近年来,数据驱动的方法被提出用于学习安全过滤器,以应对传统方法的局限性。

核心问题

在高维控制系统中,传统的安全过滤器方法面临着扩展性和可靠性的问题。固定阈值方法在处理预测误差和不确定性时可能不够可靠,尤其是在分布外场景中。这一问题的解决对于实现更安全的自动化控制系统至关重要。

核心创新

ACoFi方法的核心创新在于其结合了学习的Hamilton-Jacobi可达性分析与自适应保序推断,提供了一种动态调整安全策略切换标准的机制。与传统的固定阈值方法相比,ACoFi能够更好地应对预测误差和不确定性,从而在高维控制系统中提供更可靠的安全性。

方法详解

  • �� ACoFi结合了学习的Hamilton-Jacobi可达性分析与自适应保序推断。
  • �� 通过动态调整切换标准来应对预测误差。
  • �� 利用名义策略输出的可能安全值范围来量化安全评估中的不确定性。
  • �� 当该范围表明可能不安全时,过滤器会从名义策略切换到学习的安全策略。
  • �� 通过用户定义的参数渐进上界来保证错误量化名义策略预测安全性的速率。

实验设计

实验在Dubins小车仿真和Safety Gymnasium环境中进行。使用名义策略收集数据集,然后训练DINO-WM世界模型。接着,通过学习Q函数来导出HJ值函数V。最后,实施ACoFi算法,并与基线方法进行比较。实验中使用的目标误覆盖率为0.05。

结果分析

实验结果表明,ACoFi在Dubins小车仿真和Safety Gymnasium环境中显著优于使用固定切换阈值的基线方法。ACoFi在16次运行中保持了最小学习安全值,并避免了任何安全违规。在Safety Gymnasium的CarGoal环境中,ACoFi在平均安全值和违规次数上均优于基线方法,且在目标达成率上与基线方法相近。

应用场景

ACoFi方法可直接应用于自动驾驶汽车和工业机器人等需要高安全性的自动化控制系统。其动态调整安全策略切换标准的机制使其在处理高维状态和控制空间时表现出色。

局限与展望

尽管ACoFi在安全性方面取得了显著进展,但其在多步预测和连续时间控制任务中的表现尚未经过充分验证,可能需要进一步的研究和优化。此外,ACoFi在早期违反安全约束时可能会变得过于保守,导致不必要的切换和任务完成速度的降低。

通俗解读 非专业人士也能看懂

想象一下你在厨房里做饭。你有一个食谱(名义策略),但有时候你会发现食材不够新鲜或者烤箱温度不稳定(预测误差)。为了确保菜肴的安全和美味,你需要一个助手(ACoFi)来帮助你判断什么时候需要调整烹饪方法。这个助手会根据食材的新鲜度和烤箱的温度来决定是否需要改变烹饪策略(切换到学习的安全策略)。这样,即使在不确定的情况下,你也能做出安全又美味的菜肴。ACoFi就像这个助手,帮助自动化控制系统在不确定的环境中保持安全。

简单解释 像给14岁少年讲一样

想象你在玩一个赛车游戏。你有一个默认的驾驶策略(名义策略),但有时候赛道会突然变得湿滑或者视线不清(预测误差)。为了确保你的赛车不会撞车,你需要一个助手(ACoFi)来帮你判断什么时候需要改变驾驶策略。这个助手会根据赛道的湿滑程度和视线的清晰度来决定是否需要调整你的驾驶方式(切换到学习的安全策略)。这样,即使在不确定的情况下,你也能安全地完成比赛。ACoFi就像这个助手,帮助自动化控制系统在不确定的环境中保持安全。

术语表

Hamilton-Jacobi可达性分析

一种用于评估控制系统安全性的数学方法,通过计算系统从当前状态到达失败状态的可能性来确定安全策略。

在本文中用于设计学习的安全过滤器。

自适应保序推断

一种统计方法,用于在时间序列数据中生成置信区间,能够根据观察到的预测误差动态调整置信水平。

在本文中用于动态调整安全策略切换标准。

安全过滤器

一种用于确保控制系统安全运行的工具,通过调整不安全的名义动作来实现。

在本文中结合学习的Hamilton-Jacobi可达性分析使用。

名义策略

控制系统在没有考虑安全性时的默认操作策略。

在本文中作为安全过滤器的切换对象。

学习的安全策略

通过学习算法获得的安全策略,用于在名义策略被认为不安全时替代其执行。

在本文中用于替代不安全的名义策略。

分布外场景

控制系统在训练过程中未遇到的状态或动作空间区域。

在本文中用于测试ACoFi方法的鲁棒性。

DINO-WM世界模型

一种用于模拟环境动态的模型,通过学习环境的状态转移来预测未来状态。

在本文中用于训练HJ值函数。

Q函数

在强化学习中用于评估特定状态下采取特定动作的价值。

在本文中用于学习HJ值函数。

PID控制器

一种常用的反馈控制器,通过调整比例、积分和微分参数来控制系统输出。

在本文中作为名义策略的实现。

目标误覆盖率

在保序推断中用于定义置信区间的目标误差率。

在本文中用于评估ACoFi方法的性能。

开放问题 这项研究留下的未解疑问

  • 1 如何在多步预测和连续时间控制任务中有效应用ACoFi方法?现有方法在这些任务中的表现尚未经过充分验证,可能需要进一步的研究和优化。
  • 2 ACoFi方法在多任务环境中的适应能力如何?现有研究主要集中在单一任务环境中,未来的研究可以探索其在多任务环境中的表现。
  • 3 如何在不降低安全性的前提下提高任务完成效率?ACoFi方法在某些情况下可能会过于依赖学习的安全策略,导致任务完成效率下降。
  • 4 在什么情况下ACoFi方法可能会变得过于保守?现有研究表明,ACoFi在早期违反安全约束时可能会变得过于保守,导致不必要的切换和任务完成速度的降低。
  • 5 如何进一步提高ACoFi方法在分布外场景中的鲁棒性?现有研究表明,ACoFi在分布外场景中表现出色,但仍有改进空间。

应用场景

近期应用

自动驾驶汽车

ACoFi方法可用于提高自动驾驶汽车的安全性,特别是在不确定的交通环境中。通过动态调整安全策略切换标准,ACoFi能够更好地应对道路上的突发情况。

工业机器人

在工业自动化中,ACoFi方法可用于提高机器人在复杂环境中的安全性。其动态调整机制使其能够在处理高维状态和控制空间时表现出色。

无人机导航

ACoFi方法可用于无人机在复杂环境中的导航,提高其在不确定条件下的安全性。通过动态调整安全策略,ACoFi能够更好地应对环境变化。

远期愿景

智能城市交通管理

ACoFi方法可用于智能城市交通管理系统,提高交通流量的安全性和效率。通过动态调整交通信号和车辆路径,ACoFi能够更好地应对交通拥堵和事故。

未来工业自动化

ACoFi方法可用于未来工业自动化系统,提高其在不确定环境中的安全性和效率。通过动态调整安全策略,ACoFi能够更好地适应工业环境的变化。

原文摘要

Safety filters have been shown to be effective tools to ensure the safety of control systems with unsafe nominal policies. To address scalability challenges in traditional synthesis methods, learning-based approaches have been proposed for designing safety filters for systems with high-dimensional state and control spaces. However, the inevitable errors in the decisions of these models raise concerns about their reliability and the safety guarantees they offer. This paper presents Adaptive Conformal Filtering (ACoFi), a method that combines learned Hamilton-Jacobi reachability-based safety filters with adaptive conformal inference. Under ACoFi, the filter dynamically adjusts its switching criteria based on the observed errors in its predictions of the safety of actions. The range of possible safety values of the nominal policy's output is used to quantify uncertainty in safety assessment. The filter switches from the nominal policy to the learned safe one when that range suggests it might be unsafe. We show that ACoFi guarantees that the rate of incorrectly quantifying uncertainty in the predicted safety of the nominal policy is asymptotically upper bounded by a user-defined parameter. This gives a soft safety guarantee rather than a hard safety guarantee. We evaluate ACoFi in a Dubins car simulation and a Safety Gymnasium environment, empirically demonstrating that it significantly outperforms the baseline method that uses a fixed switching threshold by achieving higher learned safety values and fewer safety violations, especially in out-of-distribution scenarios.

eess.SY cs.LG cs.RO