SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

TL;DR

SafetyALFRED评估多模态大语言模型在厨房环境中的安全规划，发现模型在识别危险方面表现良好，但在风险缓解上成功率较低。

cs.AI 🔴 高级 2026-04-22 34 次浏览

Josue Torres-Fonseca Naihao Deng Yinpei Dai Shane Storks Yichi Zhang Rada Mihalcea Casey Kennington Joyce Chai

多模态大语言模型安全规划风险缓解 ALFRED 厨房环境

核心发现

方法论

SafetyALFRED基于ALFRED基准，扩展了六类真实厨房危险。研究评估了来自Qwen、Gemma和Gemini家族的11个模型，不仅在识别危险方面，还在通过具身规划进行主动风险缓解。实验揭示了一个显著的对齐差距：模型在QA设置中能够准确识别危险，但在具身任务中平均缓解成功率较低。

关键结果

在QA任务中，模型能够以92%的平均准确率识别安全危险，但在具身任务中，尽管提供了真实环境状态信息，平均缓解成功率仅为60%。
即使在提供元数据的情况下，开放权重模型在所有其他类别中的准确率平均不超过20%，尽管这些类别在QA任务中具有更高的危险识别率。
在没有元数据的情况下，模型在大多数类别中难以达到20%的准确率，只有火灾、卫生和变质表现更好，分别达到超过29%、35%和几乎100%的准确率。

研究意义

本研究强调了现有QA评估在物理安全方面的不足，倡导转向优先考虑具身情境中纠正行动的基准。通过引入SafetyALFRED，研究展示了多模态大语言模型在识别和缓解真实世界厨房环境中的安全危险方面的能力差距。这一发现对学术界和工业界具有重要意义，特别是在开发和部署自主机器人系统时，强调了需要更全面的安全评估方法。

技术贡献

SafetyALFRED通过将ALFRED基准扩展到包括六类厨房危险，提供了一种新的评估框架。该研究的技术贡献在于揭示了多模态大语言模型在静态QA和动态具身任务中的表现差距，提出了多代理框架以分离危险识别和缓解过程，尽管这种方法仅略微提高了性能。

新颖性

SafetyALFRED是第一个将多模态大语言模型的安全评估从静态QA扩展到具身情境的研究。与现有的如ASIMOV和MM-SafetyBench等基准不同，SafetyALFRED不仅关注危险识别，还强调主动风险缓解，填补了现有研究中的关键空白。

局限性

模型在具身任务中的低缓解成功率表明其在规划和执行纠正行动方面存在困难，特别是在没有元数据的情况下。
尽管在QA任务中表现良好，但模型在具身任务中未能有效利用其安全知识进行实际行为。
多代理框架虽然略微提高了性能，但未能完全解决识别和缓解之间的对齐问题。

未来方向

未来的研究方向包括开发更有效的模型架构，以提高多模态大语言模型在具身任务中的风险缓解能力。此外，研究可以探索更复杂的环境和任务，以进一步测试和改进模型的安全规划能力。社区还可以关注如何更好地将抽象的安全知识转化为具体的行为。

AI 总览摘要

多模态大语言模型（MLLMs）在交互环境中作为自主代理的应用日益广泛，但其主动解决安全隐患的能力仍然不足。现有的安全评估主要集中在通过无体问答（QA）设置识别危险，而忽视了在具身情境中主动风险缓解的能力。

为了解决这一问题，我们引入了SafetyALFRED，这是一种基于ALFRED基准的扩展，增加了六类真实世界厨房危险。我们评估了来自Qwen、Gemma和Gemini家族的11个最先进的模型，不仅在识别危险方面，还在通过具身规划进行主动风险缓解。实验结果揭示了一个显著的对齐差距：尽管模型在QA设置中能够准确识别危险，但在具身任务中平均缓解成功率较低。

这一发现表明，静态评估通过QA在物理安全方面是不够的，因此我们倡导转向优先考虑具身情境中纠正行动的基准。我们开源了我们的代码和数据集，以促进进一步的研究和开发。

在实验中，我们使用了AI2Thor环境中的30个厨房环境和五种任务类型，涉及对象操作（移动、堆叠、清洗、加热或冷却），然后将对象放置在最终目的地。我们发现，尽管模型在QA任务中表现良好，但在具身任务中未能有效利用其安全知识进行实际行为。

深度分析

研究背景

多模态大语言模型（MLLMs）近年来在推理和决策能力方面表现出色，广泛应用于模拟和物理交互环境中，作为自主具身代理。它们能够将高层次的自然语言指令转化为可执行计划。然而，随着MLLMs在这些角色中的过渡，其识别和主动解决安全隐患的能力成为一个主要关注点。尽管有这种需求，先前的安全基准如ASIMOV、Multimodal Situational Safety和MM-SafetyBench等，主要集中在通过静态图像、视频或场景的问答任务识别危险。评估代理识别安全隐患的能力以及在动态具身环境中生成缓解计划的能力仍然存在关键差距。

核心问题

多模态大语言模型在交互环境中作为自主代理的应用日益广泛，但其主动解决安全隐患的能力仍然不足。现有的安全评估主要集中在通过无体问答（QA）设置识别危险，而忽视了在具身情境中主动风险缓解的能力。为了评估MLLMs能否将从大规模网络预训练中获得的安全知识转化为具体行为，我们提出了一个新的安全问题。给定任务指令和多模态观察，模型必须在推进分配任务的同时，主动生成计划以纠正可能造成即时或未来伤害的危险。

核心创新

SafetyALFRED是第一个将多模态大语言模型的安全评估从静态QA扩展到具身情境的研究。与现有的如ASIMOV和MM-SafetyBench等基准不同，SafetyALFRED不仅关注危险识别，还强调主动风险缓解，填补了现有研究中的关键空白。我们引入了一个扩展的ALFRED基准，用于具身指令跟随，增加了六类精心选择的安全隐患，代表了常见厨房环境中的真实世界风险。使用SafetyALFRED，我们在两种设置中评估了11个MLLMs：一是代理作为安全裁判识别场景中的危险；二是代理在立即缓解任何安全隐患的同时完成分配任务。

方法详解

�� SafetyALFRED基于ALFRED基准，扩展了六类真实厨房危险。
�� 研究评估了来自Qwen、Gemma和Gemini家族的11个模型，不仅在识别危险方面，还在通过具身规划进行主动风险缓解。
�� 实验揭示了一个显著的对齐差距：模型在QA设置中能够准确识别危险，但在具身任务中平均缓解成功率较低。
�� 我们提出了一个多代理框架，将危险识别与缓解过程分离，尽管这种方法仅略微提高了性能。

实验设计

实验中使用了AI2Thor环境中的30个厨房环境和五种任务类型，涉及对象操作（移动、堆叠、清洗、加热或冷却），然后将对象放置在最终目的地。我们评估了来自Qwen、Gemma和Gemini家族的11个模型，不仅在识别危险方面，还在通过具身规划进行主动风险缓解。实验结果揭示了一个显著的对齐差距：尽管模型在QA设置中能够准确识别危险，但在具身任务中平均缓解成功率较低。

结果分析

实验结果显示，尽管模型在QA任务中表现良好，但在具身任务中未能有效利用其安全知识进行实际行为。即使在提供元数据的情况下，开放权重模型在所有其他类别中的准确率平均不超过20%，尽管这些类别在QA任务中具有更高的危险识别率。多代理框架虽然略微提高了性能，但未能完全解决识别和缓解之间的对齐问题。

应用场景

SafetyALFRED的应用场景包括自主机器人系统的开发和部署，特别是在需要识别和缓解真实世界环境中的安全隐患的情况下。通过引入SafetyALFRED，研究展示了多模态大语言模型在识别和缓解真实世界厨房环境中的安全危险方面的能力差距。这一发现对学术界和工业界具有重要意义，强调了需要更全面的安全评估方法。

局限与展望

模型在具身任务中的低缓解成功率表明其在规划和执行纠正行动方面存在困难，特别是在没有元数据的情况下。尽管在QA任务中表现良好，但模型在具身任务中未能有效利用其安全知识进行实际行为。多代理框架虽然略微提高了性能，但未能完全解决识别和缓解之间的对齐问题。未来的研究方向包括开发更有效的模型架构，以提高多模态大语言模型在具身任务中的风险缓解能力。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭，厨房里有很多潜在的危险，比如炉子上的火、地上的水坑和打开的柜子门。多模态大语言模型就像一个聪明的助手，它可以帮助你识别这些危险，并告诉你如何避免它们。然而，这些模型在识别危险方面表现良好，但在实际采取行动来消除这些危险时，表现却不尽如人意。

就像你在厨房里看到一个手机掉进了水槽里，你知道这可能会导致手机损坏或其他问题。模型可以识别出这个问题，但在如何解决这个问题上，它们可能会感到困惑。它们可能知道应该把手机从水槽里拿出来，但在实际操作中，它们可能会遇到困难。

这就像你有一个很好的计划，但在执行时遇到了障碍。模型需要更多的信息和更好的策略来有效地解决这些问题。通过不断的学习和改进，这些模型可以变得更加智能和高效，帮助我们在日常生活中更好地管理安全问题。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在厨房里做饭，突然发现炉子上的火太大了，或者地上有水坑可能会滑倒。多模态大语言模型就像一个超级聪明的助手，它可以帮你发现这些问题，并告诉你怎么解决它们。

不过，这些模型在识别问题上很厉害，但在实际解决问题时，有时候就像我们在玩游戏时卡关了一样。它们知道有危险，但在怎么处理上可能会有点迷糊。

就像你在学校里学到很多知识，但在实际考试中，有时候会遇到难题。这些模型也需要不断学习和练习，才能在实际操作中表现得更好。

所以，未来这些模型会变得越来越聪明，帮助我们在生活中更好地处理各种问题，就像一个无所不能的好帮手！

术语表

多模态大语言模型 (Multimodal Large Language Model)

多模态大语言模型是一种能够处理多种输入形式（如文本、图像、视频等）的人工智能模型。它们可以将自然语言指令转化为可执行的计划。

在论文中用于评估模型在识别和缓解厨房环境中的安全隐患的能力。

具身代理 (Embodied Agent)

具身代理是指在物理或模拟环境中能够执行任务的自主系统。它们可以通过感知和行动与环境交互。

在论文中用于描述模型在AI2Thor环境中执行任务的能力。

ALFRED基准 (ALFRED Benchmark)

ALFRED是一个用于评估具身指令跟随能力的基准，涉及对象操作和任务完成。

SafetyALFRED基于ALFRED基准进行扩展，以评估安全规划能力。

问答任务 (Question Answering Task)

问答任务是一种评估模型理解和回答问题能力的测试，通常基于给定的文本或图像。

在论文中用于评估模型识别安全隐患的能力。

风险缓解 (Risk Mitigation)

风险缓解是指识别潜在危险并采取措施以减少或消除风险的过程。

在论文中用于评估模型在具身任务中主动解决安全隐患的能力。

AI2Thor环境 (AI2Thor Environment)

AI2Thor是一个用于模拟家庭环境的交互式3D平台，常用于训练和测试具身代理。

在论文中用于创建实验场景和任务。

元数据 (Metadata)

元数据是关于数据的数据，提供了有关数据内容、结构和上下文的信息。

在论文中用于为模型提供额外的环境信息，以帮助识别和缓解危险。

多代理框架 (Multi-Agent Framework)

多代理框架是一种系统架构，涉及多个自主代理的协作，以完成复杂任务。

在论文中用于分离危险识别和缓解过程。

对齐差距 (Alignment Gap)

对齐差距是指模型在不同任务或设置中的表现差异，通常反映在识别和执行能力之间的差距。

在论文中用于描述模型在QA和具身任务中的表现差距。

静态评估 (Static Evaluation)

静态评估是指在不考虑动态变化或交互的情况下，对模型能力进行的评估。

在论文中用于描述现有安全评估方法的局限性。

开放问题这项研究留下的未解疑问

1 尽管模型在识别危险方面表现良好，但在具身任务中未能有效利用其安全知识进行实际行为。这表明需要进一步研究如何将抽象的安全知识转化为具体的行为。
2 现有的多代理框架虽然略微提高了性能，但未能完全解决识别和缓解之间的对齐问题。需要探索更有效的架构来改善这一差距。
3 在没有元数据的情况下，模型在具身任务中的低缓解成功率表明其在规划和执行纠正行动方面存在困难。这需要进一步研究如何提高模型在复杂环境中的规划能力。
4 尽管在QA任务中表现良好，模型在具身任务中未能有效利用其安全知识进行实际行为。这表明需要进一步研究如何将抽象的安全知识转化为具体的行为。
5 未来的研究方向包括开发更有效的模型架构，以提高多模态大语言模型在具身任务中的风险缓解能力。

应用场景

近期应用

家庭机器人

家庭机器人可以利用SafetyALFRED评估框架来提高其在家庭环境中识别和缓解安全隐患的能力，从而提高安全性和效率。

工业自动化

工业自动化系统可以应用SafetyALFRED的评估方法来识别和缓解生产线中的潜在危险，提高生产安全性。

智能家居系统

智能家居系统可以利用SafetyALFRED的评估框架来提高其在家庭环境中识别和缓解安全隐患的能力，从而提高安全性和效率。

远期愿景

自主驾驶

自主驾驶车辆可以利用SafetyALFRED的评估框架来提高其在复杂交通环境中识别和缓解安全隐患的能力，从而提高行车安全性。

智能城市

智能城市系统可以应用SafetyALFRED的评估方法来识别和缓解城市环境中的潜在危险，提高城市安全性和宜居性。

原文摘要

Multimodal Large Language Models are increasingly adopted as autonomous agents in interactive environments, yet their ability to proactively address safety hazards remains insufficient. We introduce SafetyALFRED, built upon the embodied agent benchmark ALFRED, augmented with six categories of real-world kitchen hazards. While existing safety evaluations focus on hazard recognition through disembodied question answering (QA) settings, we evaluate eleven state-of-the-art models from the Qwen, Gemma, and Gemini families on not only hazard recognition, but also active risk mitigation through embodied planning. Our experimental results reveal a significant alignment gap: while models can accurately recognize hazards in QA settings, average mitigation success rates for these hazards are low in comparison. Our findings demonstrate that static evaluations through QA are insufficient for physical safety, thus we advocate for a paradigm shift toward benchmarks that prioritize corrective actions in embodied contexts. We open-source our code and dataset under https://github.com/sled-group/SafetyALFRED.git

cs.AI cs.CL cs.RO

参考文献 (20)

ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks

Mohit Shridhar, Jesse Thomason, Daniel Gordon 等

2019 1028 引用 ⭐ 高影响力查看解读 →

Can AI Perceive Physical Danger and Intervene?

Ab-hishek Jindal, Dmitry Kalashnikov, Oscar Chang 等

2025 6 引用 ⭐ 高影响力查看解读 →

Work-related injuries and illnesses among kitchen workers at two major students’ hostels

Ghada O. Wassif, Abeer Abdelsalam, W. Eldin 等

2024 4 引用

Food Safety in Home Kitchens: A Synthesis of the Literature

C. Byrd-Bredbenner, J. Berning, Jennifer Martin-Biggers 等

2013 252 引用

PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference

Jiaming Ji, Donghai Hong, Borong Zhang 等

2024 160 引用查看解读 →

Plug in the Safety Chip: Enforcing Constraints for LLM-driven Robot Agents

Ziyi Yang, S. S. Raman, Ankit Shah 等

2023 92 引用查看解读 →

HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments

Qinhong Zhou, Sunli Chen, Yisong Wang 等

2024 33 引用查看解读 →

IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks

Xiaoya Lu, Zeren Chen, Xuhao Hu 等

2025 20 引用查看解读 →

Sim-to-Real Transfer in Robotics: Addressing the Gap between Simulation and Real-World Performance

N. Chukwurah, A. Adebayo, O. Ajayi

2024 20 引用

SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents

Sheng Yin, Xianghe Pang, Yuanzhuo Ding 等

2024 71 引用查看解读 →

Generating Robot Constitutions & Benchmarks for Semantic Safety

P. Sermanet, Anirudha Majumdar, A. Irpan 等

2025 18 引用查看解读 →

Ignore Previous Prompt: Attack Techniques For Language Models

Fábio Perez, I. Ribeiro

2022 765 引用查看解读 →

AI2-THOR: An Interactive 3D Environment for Visual AI

Eric Kolve, Roozbeh Mottaghi, Winson Han 等

2017 1387 引用查看解读 →

A Framework for Benchmarking and Aligning Task-Planning Safety in LLM-Based Embodied Agents

Yuting Huang, Leilei Ding, Zhipeng Tang 等

2025 21 引用查看解读 →

Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations

Zeming Wei, Yifei Wang, Yisen Wang

2023 455 引用查看解读 →

Safety Control of Service Robots with LLMs and Embodied Knowledge Graphs

Yong Qi, Gabriel Kyebambo, Siyuan Xie 等

2024 8 引用查看解读 →

Safe Planner: Empowering Safety Awareness in Large Pre-Trained Models for Robot Task Planning

Siyuan Li, Zhe Ma, Feifan Liu 等

2024 10 引用查看解读 →

SafeMind: Benchmarking and Mitigating Safety Risks in Embodied LLM Agents

Ruolin Chen, Yinqian Sun, Jihang Wang 等

2025 2 引用查看解读 →

A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference

Adina Williams, Nikita Nangia, Samuel R. Bowman

2017 4979 引用查看解读 →

Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a Survey

Wenshuai Zhao, J. P. Queralta, Tomi Westerlund

2020 976 引用查看解读 →

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

多模态大语言模型 (Multimodal Large Language Model)

具身代理 (Embodied Agent)

ALFRED基准 (ALFRED Benchmark)

问答任务 (Question Answering Task)

风险缓解 (Risk Mitigation)

AI2Thor环境 (AI2Thor Environment)

元数据 (Metadata)

多代理框架 (Multi-Agent Framework)

对齐差距 (Alignment Gap)

静态评估 (Static Evaluation)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

家庭机器人

工业自动化

智能家居系统

远期愿景

自主驾驶

智能城市

原文摘要

参考文献 (20)

相关论文

Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

Large Language Models Exhibit Normative Conformity

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问