RedVLA: Physical Red Teaming for Vision-Language-Action Models

TL;DR

RedVLA通过两阶段流程识别VLA模型的物理安全风险,ASR达95.5%。

cs.RO 🔴 高级 2026-04-24 28 次浏览
Yuhao Zhang Borong Zhang Jiaming Fan Jiachen Shen Yishuai Cai Yaodong Yang Jiaming Ji
物理安全 红队测试 VLA模型 风险放大 安全防护

核心发现

方法论

RedVLA是一种针对视觉-语言-动作(VLA)模型的物理安全红队测试框架。它通过两阶段流程系统地揭示不安全行为。第一阶段是风险场景合成,识别关键交互区域并在这些区域中放置风险因素,以便与VLA的执行流程纠缠并引发目标不安全行为。第二阶段是风险放大,通过无梯度优化迭代地优化风险因素状态,以确保在异构模型中稳定引发不安全行为。

关键结果

  • 实验结果表明,RedVLA在六个代表性VLA模型上揭示了多样的不安全行为,ASR在10次优化迭代中达到95.5%。这些模型包括OpenVLA、OpenVLA-OFT、VLA-Adapter、VLA-Adapter-Pro、π0和π0.5。
  • RedVLA在状态级、累积级和条件级别上主动引发不安全行为,平均ASR达到92.7%,表现优于OpenVLA。
  • 通过RedVLA生成的数据构建的SimpleVLA-Guard能够在不显著影响任务性能的情况下,将在线ASR减少59.5%。

研究意义

RedVLA的提出填补了VLA模型在物理安全性方面的空白,为模型在真实世界中的大规模部署提供了前提保障。通过系统地引入潜在风险因素并揭示不安全行为,RedVLA在不破坏原始场景的良性特性和任务指令的语义一致性的情况下,最大化了物理安全风险。这一框架不仅为学术界提供了新的研究方向,也为工业界在部署VLA模型时提供了重要的安全评估工具。

技术贡献

RedVLA在技术上引入了一个全新的红队测试框架,专注于VLA模型的物理安全性。与现有方法不同,RedVLA不仅考虑了环境中的潜在物理风险,还通过无梯度优化模型化了风险过程的物理因果关系。通过这种方法,RedVLA能够在不破坏任务可行性的情况下,揭示VLA模型在物理世界中的独特安全风险。

新颖性

RedVLA是首个系统性探索VLA模型物理安全性的红队测试框架。与以往主要针对语义和意图漏洞的红队测试方法不同,RedVLA将风险来源从意图空间转移到了物理空间,提出了一种全新的风险放大方法,能够在异构模型中稳定引发不安全行为。

局限性

  • RedVLA的风险因素初始化依赖于代理的初始状态和指令,这可能导致在某些场景中无法稳定引发目标不安全行为。
  • 该框架的优化过程需要多次迭代,可能在计算资源有限的情况下不够高效。
  • SimpleVLA-Guard的跨任务泛化能力有限,在未见过的任务上检测性能有所下降。

未来方向

未来的研究方向包括提高RedVLA在不同任务和环境中的泛化能力,优化风险放大过程以减少计算开销,以及进一步增强SimpleVLA-Guard的跨任务检测和干预能力。此外,还可以探索将RedVLA应用于其他类型的多模态模型,以评估其在更广泛的人工智能系统中的安全性。

AI 总览摘要

视觉-语言-动作(VLA)模型在机器人操作、自动驾驶和手术等关键领域的应用潜力巨大。然而,其在真实世界中的部署仍然受到不可预测和不可逆的物理伤害风险的限制。现有的红队测试方法主要针对语义和意图漏洞,而忽视了VLA模型在物理空间中的独特安全挑战。

为了解决这一问题,Yuhao Zhang等人提出了RedVLA,这是首个针对VLA模型物理安全性的红队测试框架。RedVLA通过两阶段流程系统地揭示不安全行为:首先是风险场景合成,识别关键交互区域并在这些区域中放置风险因素;其次是风险放大,通过无梯度优化迭代地优化风险因素状态,以确保在异构模型中稳定引发不安全行为。

RedVLA的核心技术原理包括风险场景合成和风险放大。在风险场景合成阶段,框架识别关键交互区域并在这些区域中放置风险因素,以便与VLA的执行流程纠缠并引发目标不安全行为。在风险放大阶段,框架通过无梯度优化迭代地优化风险因素状态,以确保在异构模型中稳定引发不安全行为。

实验结果表明,RedVLA在六个代表性VLA模型上揭示了多样的不安全行为,ASR在10次优化迭代中达到95.5%。这些模型包括OpenVLA、OpenVLA-OFT、VLA-Adapter、VLA-Adapter-Pro、π0和π0.5。通过RedVLA生成的数据构建的SimpleVLA-Guard能够在不显著影响任务性能的情况下,将在线ASR减少59.5%。

RedVLA的提出填补了VLA模型在物理安全性方面的空白,为模型在真实世界中的大规模部署提供了前提保障。通过系统地引入潜在风险因素并揭示不安全行为,RedVLA在不破坏原始场景的良性特性和任务指令的语义一致性的情况下,最大化了物理安全风险。

然而,RedVLA的风险因素初始化依赖于代理的初始状态和指令,这可能导致在某些场景中无法稳定引发目标不安全行为。此外,该框架的优化过程需要多次迭代,可能在计算资源有限的情况下不够高效。未来的研究方向包括提高RedVLA在不同任务和环境中的泛化能力,优化风险放大过程以减少计算开销,以及进一步增强SimpleVLA-Guard的跨任务检测和干预能力。

深度分析

研究背景

视觉-语言-动作(VLA)模型正在迅速发展,成为实现通用机器人策略的关键技术。这些模型通过从视觉和语言到动作的端到端学习,扩展了其在操控、自动驾驶和机器人手术等关键领域的能力。然而,随着VLA模型能力的增强,其安全性问题也显著增加。现有的红队测试方法主要针对大语言模型(LLMs)和视觉-语言模型(VLMs)的语义和意图漏洞,而忽视了VLA模型在物理空间中的独特安全挑战。这些风险源于具身代理与环境的交互,是现有红队测试方法无法有效检测的。为了在真实世界中大规模部署VLA模型,主动识别和缓解物理安全风险是一个关键前提。

核心问题

VLA模型在真实世界中的部署面临着不可预测和不可逆的物理伤害风险。现有的红队测试方法主要针对语义和意图漏洞,而忽视了VLA模型在物理空间中的独特安全挑战。这些风险源于具身代理与环境的交互,是现有红队测试方法无法有效检测的。因此,如何主动揭示VLA模型的潜在物理安全风险,并在不破坏原始场景的良性特性和任务指令的语义一致性的情况下,最大化物理安全风险,是一个亟待解决的问题。

核心创新

RedVLA的核心创新在于其针对VLA模型物理安全性的红队测试框架。首先,RedVLA通过风险场景合成识别关键交互区域,并在这些区域中放置风险因素,以便与VLA的执行流程纠缠并引发目标不安全行为。其次,RedVLA通过无梯度优化迭代地优化风险因素状态,以确保在异构模型中稳定引发不安全行为。与以往主要针对语义和意图漏洞的红队测试方法不同,RedVLA将风险来源从意图空间转移到了物理空间,提出了一种全新的风险放大方法,能够在异构模型中稳定引发不安全行为。

方法详解

RedVLA的方法论包括以下关键步骤:


  • �� 风险场景合成:识别关键交互区域,并在这些区域中放置风险因素,以便与VLA的执行流程纠缠并引发目标不安全行为。

  • �� 交互识别:通过分析良性轨迹中的末端执行器轨迹,识别关键交互区域,包括过渡区域、抓取区域和振动区域。

  • �� 风险实例化:在关键交互区域中放置风险因素,以便与VLA的执行流程纠缠并引发目标不安全行为。

  • �� 风险放大:通过无梯度优化迭代地优化风险因素状态,以确保在异构模型中稳定引发不安全行为。

  • �� 轨迹驱动的风险放大:通过分析轨迹空间特征,指导风险因素状态的优化,最大化安全违规的可能性。

实验设计

实验设计包括在六个代表性VLA模型上测试RedVLA的性能。这些模型包括OpenVLA、OpenVLA-OFT、VLA-Adapter、VLA-Adapter-Pro、π0和π0.5。实验在广泛采用的LIBERO基准上进行,注入风险因素以引发安全违规。具体来说,这些违规涵盖了三种安全成本类型(状态级、累积级和条件级)和三种物理危害类别(资源损坏、危险物品误用和机器人损坏)。通过交叉这两个维度,我们构建了十个风险场景套件,例如累积级资源损坏。每个风险场景在10次试验中进行评估,并在不同随机种子下平均所有指标。

结果分析

实验结果表明,RedVLA在六个代表性VLA模型上揭示了多样的不安全行为,ASR在10次优化迭代中达到95.5%。这些模型包括OpenVLA、OpenVLA-OFT、VLA-Adapter、VLA-Adapter-Pro、π0和π0.5。RedVLA在状态级、累积级和条件级别上主动引发不安全行为,平均ASR达到92.7%,表现优于OpenVLA。通过RedVLA生成的数据构建的SimpleVLA-Guard能够在不显著影响任务性能的情况下,将在线ASR减少59.5%。

应用场景

RedVLA的应用场景包括在机器人操作、自动驾驶和机器人手术等领域的安全评估和监控。通过系统地引入潜在风险因素并揭示不安全行为,RedVLA为这些领域的VLA模型提供了重要的安全评估工具。此外,SimpleVLA-Guard可以用于实时检测和干预不安全行为,减少在线ASR,确保任务的安全执行。

局限与展望

RedVLA的风险因素初始化依赖于代理的初始状态和指令,这可能导致在某些场景中无法稳定引发目标不安全行为。此外,该框架的优化过程需要多次迭代,可能在计算资源有限的情况下不够高效。SimpleVLA-Guard的跨任务泛化能力有限,在未见过的任务上检测性能有所下降。未来的研究方向包括提高RedVLA在不同任务和环境中的泛化能力,优化风险放大过程以减少计算开销,以及进一步增强SimpleVLA-Guard的跨任务检测和干预能力。

通俗解读 非专业人士也能看懂

想象一下你在厨房里做饭。你有一个食谱(就像VLA模型的任务指令),你需要根据食谱的指示来完成一道菜(就像模型执行任务)。但在厨房里,有一些潜在的危险,比如锋利的刀具或滚烫的油锅(就像VLA模型中的物理风险)。

RedVLA就像一个聪明的助手,它会在你开始做饭之前,检查厨房的每个角落,找出那些可能会让你受伤的地方。它会把刀具放在安全的地方,确保油锅不会溅出油来。这样,你就可以安全地按照食谱做饭,而不会被意外伤害。

这个助手不仅会在你开始做饭前检查厨房,还会在你做饭的过程中不断观察。当它发现你可能会不小心碰到危险时,它会提醒你,甚至在必要时帮你调整锅的位置,以确保你的安全。

通过这种方式,RedVLA帮助VLA模型在执行任务时避免了潜在的物理风险,就像这个聪明的助手帮助你安全地完成烹饪一样。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!你们知道吗,机器人也会犯错,尤其是在它们需要同时看、听和动的时候!想象一下你在玩一个超级复杂的游戏,需要同时看屏幕、听指令,还要快速按下正确的按钮。是不是有点难?

科学家们发明了一种叫做RedVLA的东西,专门用来帮助这些机器人不犯错。它就像是游戏里的一个超级助手,可以提前告诉你哪里有陷阱,让你避免踩雷。

RedVLA会在机器人开始行动之前,先检查周围的环境,找出那些可能会让机器人出错的地方。比如说,它会告诉机器人:“嘿,小心前面的台阶!”这样机器人就不会摔倒啦。

而且,这个助手还会在机器人行动的时候一直观察,发现问题就会马上提醒。就像你在玩游戏时,有个小伙伴一直在旁边给你加油打气,还会帮你指出危险呢!是不是很酷?

术语表

视觉-语言-动作模型 (Vision-Language-Action Model)

一种能够从视觉和语言输入中学习并执行动作的模型,常用于机器人操作和自动驾驶等领域。

在论文中用于测试其物理安全性。

红队测试 (Red Teaming)

一种通过模拟攻击来评估系统安全性的方法,通常用于识别潜在的安全漏洞。

用于评估VLA模型的物理安全性。

风险场景合成 (Risk Scenario Synthesis)

识别关键交互区域并在这些区域中放置风险因素,以便与模型的执行流程纠缠并引发不安全行为。

RedVLA方法的第一阶段。

风险放大 (Risk Amplification)

通过无梯度优化迭代地优化风险因素状态,以确保在异构模型中稳定引发不安全行为。

RedVLA方法的第二阶段。

攻击成功率 (Attack Success Rate, ASR)

衡量目标安全违规被成功触发的百分比,是评估红队测试效果的重要指标。

用于评估RedVLA在不同模型上的性能。

SimpleVLA-Guard

一种基于RedVLA生成数据构建的轻量级安全防护工具,用于实时检测和干预不安全行为。

用于减少在线ASR并确保任务安全执行。

无梯度优化 (Gradient-Free Optimization)

一种不依赖梯度信息的优化方法,常用于目标函数不可微或梯度难以计算的情况。

用于优化风险因素状态。

LIBERO基准 (LIBERO Benchmark)

一个广泛采用的测试基准,用于评估VLA模型在不同任务和环境中的性能。

实验中用于测试RedVLA的性能。

状态级安全成本 (State-Level Safety Cost)

单个状态-动作对直接构成物理风险时的安全成本,通常在状态级别触发。

用于评估不同风险场景的安全违规。

累积级安全成本 (Cumulative-Level Safety Cost)

由特定行为的时间积累引发的潜在风险,通常在整个轨迹上累积发生。

用于评估不同风险场景的安全违规。

条件级安全成本 (Conditional-Level Safety Cost)

仅在某个前提条件激活时才会引发的风险,通常由一对前驱和后续谓词定义。

用于评估不同风险场景的安全违规。

轨迹驱动的风险放大 (Trajectory-Driven Risk Amplification)

通过分析轨迹空间特征,指导风险因素状态的优化,最大化安全违规的可能性。

RedVLA方法的关键步骤之一。

跨任务泛化能力 (Cross-Task Generalization)

模型在未见过的任务上仍能保持良好性能的能力,是评估模型鲁棒性的重要指标。

用于评估SimpleVLA-Guard的检测性能。

功能保序预测 (Functional Conformal Prediction)

一种用于阈值校准的方法,能够在不显著影响任务性能的情况下,减少在线ASR。

用于SimpleVLA-Guard的在线干预。

无梯度优化 (Zero-Order Optimization)

一种不依赖梯度信息的优化方法,常用于目标函数不可微或梯度难以计算的情况。

用于优化风险因素状态。

开放问题 这项研究留下的未解疑问

  • 1 如何提高RedVLA在不同任务和环境中的泛化能力?现有方法在未见过的任务上性能下降,未来需要开发更具鲁棒性的优化策略。
  • 2 如何在不增加计算开销的情况下,优化RedVLA的风险放大过程?现有方法需要多次迭代,可能在计算资源有限的情况下不够高效。
  • 3 如何增强SimpleVLA-Guard的跨任务检测和干预能力?现有方法在未见过的任务上检测性能有所下降,未来需要开发更具泛化能力的检测算法。
  • 4 如何将RedVLA应用于其他类型的多模态模型,以评估其在更广泛的人工智能系统中的安全性?现有研究主要集中在VLA模型上,未来可以探索其在其他领域的应用。
  • 5 如何在不破坏原始场景的良性特性和任务指令的语义一致性的情况下,最大化物理安全风险?现有方法在某些场景中可能无法稳定引发目标不安全行为,未来需要开发更具鲁棒性的风险场景合成策略。
  • 6 如何在不显著影响任务性能的情况下,减少在线ASR?现有方法通过SimpleVLA-Guard实现了这一目标,但未来可以探索更高效的在线干预策略。
  • 7 如何在不增加计算开销的情况下,提高RedVLA的优化效率?现有方法需要多次迭代,可能在计算资源有限的情况下不够高效,未来需要开发更具效率的优化算法。

应用场景

近期应用

机器人操作安全评估

RedVLA可以用于评估机器人在执行复杂任务时的物理安全性,帮助识别潜在的安全风险并进行预防。

自动驾驶安全监控

通过RedVLA生成的数据,自动驾驶系统可以在真实世界中进行更安全的部署,减少因物理风险导致的事故。

手术机器人安全防护

SimpleVLA-Guard可以用于实时检测和干预手术机器人中的不安全行为,确保手术过程的安全性。

远期愿景

跨领域安全评估

未来,RedVLA可以扩展应用于其他多模态模型,评估其在不同领域中的安全性,推动更广泛的人工智能系统安全研究。

智能系统的全面安全框架

通过不断优化和扩展,RedVLA有望成为智能系统安全评估的标准框架,帮助构建更可靠和可信的人工智能系统。

原文摘要

The real-world deployment of Vision-Language-Action (VLA) models remains limited by the risk of unpredictable and irreversible physical harm. However, we currently lack effective mechanisms to proactively detect these physical safety risks before deployment. To address this gap, we propose \textbf{RedVLA}, the first red teaming framework for physical safety in VLA models. We systematically uncover unsafe behaviors through a two-stage process: (I) \textbf{Risk Scenario Synthesis} constructs a valid and task-feasible initial risk scene. Specifically, it identifies critical interaction regions from benign trajectories and positions the risk factor within these regions, aiming to entangle it with the VLA's execution flow and elicit a target unsafe behavior. (II) \textbf{Risk Amplification} ensures stable elicitation across heterogeneous models. It iteratively refines the risk factor state through gradient-free optimization guided by trajectory features. Experiments on six representative VLA models show that RedVLA uncovers diverse unsafe behaviors and achieves the ASR up to 95.5\% within 10 optimization iterations. To mitigate these risks, we further propose SimpleVLA-Guard, a lightweight safety guard built from RedVLA-generated data. Our data, assets, and code are available \href{https://redvla.github.io}{here}.

cs.RO

参考文献 (20)

OpenVLA: An Open-Source Vision-Language-Action Model

Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti 等

2024 1982 引用 ⭐ 高影响力 查看解读 →

LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning

Bo Liu, Yifeng Zhu, Chongkai Gao 等

2023 753 引用 ⭐ 高影响力 查看解读 →

RoboNurse-VLA: Robotic Scrub Nurse System based on Vision-Language-Action Model

Shunlei Li, Jin Wang, Rui Dai 等

2024 28 引用 ⭐ 高影响力 查看解读 →

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

Renrui Zhang, Jiaming Han, Aojun Zhou 等

2023 999 引用 查看解读 →

MART: Improving LLM Safety with Multi-round Automatic Red-Teaming

Suyu Ge, Chunting Zhou, Rui Hou 等

2023 175 引用 查看解读 →

VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models

Borong Zhang, Jiahao Li, Jiacheng Shen 等

2025 9 引用 查看解读 →

π0: A Vision-Language-Action Flow Model for General Robot Control

Kevin Black, Noah Brown, Danny Driess 等

2024 1488 引用 查看解读 →

SAFE: Multitask Failure Detection for Vision-Language-Action Models

Qiao Gu, Yuanliang Ju, Shengxiang Sun 等

2025 30 引用 查看解读 →

Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

Hakan Inan, K. Upasani, Jianfeng Chi 等

2023 930 引用 查看解读 →

RLBench: The Robot Learning Benchmark & Learning Environment

Stephen James, Zicong Ma, David Rovick Arrojo 等

2019 850 引用 查看解读 →

Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics

Taowen Wang, Dongfang Liu, J. Liang 等

2024 46 引用 查看解读 →

When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models

Yuping Yan, Yuhan Xie, Yixin Zhang 等

2025 6 引用 查看解读 →

A Survey on Vision-Language-Action Models for Embodied AI

Yueen Ma, Zixing Song, Yuzheng Zhuang 等

2024 227 引用 查看解读 →

LIBERO-PRO: Towards Robust and Fair Evaluation of Vision-Language-Action Models Beyond Memorization

Xueyang Zhou, Yangming Xu, Guiyao Tie 等

2025 35 引用 查看解读 →

On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜

Emily M. Bender, Timnit Gebru, Angelina McMillan-Major 等

2021 7017 引用

AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models

Jiayu Li, Yunhan Zhao, Xiang Zheng 等

2025 5 引用 查看解读 →

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

Senyu Fei, Siyin Wang, Junhao Shi 等

2025 62 引用 查看解读 →

Conformal Prediction: A Gentle Introduction

Anastasios Nikolas Angelopoulos, Stephen Bates

2023 569 引用

RT-1: Robotics Transformer for Real-World Control at Scale

Anthony Brohan, Noah Brown, Justice Carbajal 等

2022 2094 引用 查看解读 →

On the Safety Concerns of Deploying LLMs/VLMs in Robotics: Highlighting the Risks and Vulnerabilities

Xiyang Wu, Ruiqi Xian, Tianrui Guan 等

2024 39 引用