Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning

TL;DR

基于多智能体强化学习的联盟训练，实现22m/s高速四旋翼安全竞速，碰撞率降低50%。

cs.RO 🔴 高级 2026-05-22 81 次浏览

Ismail Geles Leonard Bauersfeld Markus Wulfmeier Davide Scaramuzza

多智能体强化学习四旋翼竞速安全协同联盟训练仿真到现实转移

核心发现

方法论

本文提出了一种基于多智能体强化学习的联盟训练框架，结合Perceiver注意力编码器处理可变数量和顺序的对手观测，利用粒子模型模拟空气动力学下洗效应，训练智能体在高动态、多对手环境中实现安全且高效的竞速。训练采用Proximal Policy Optimization (PPO)算法，配合带LSTM的递归策略和价值网络，确保时间序列信息的捕获。联盟训练通过引入多样化的对手策略（包括单智能体、独立多智能体及历史策略）促进策略的泛化能力和鲁棒性。该方法在仿真和真实环境中均验证，支持多达8个智能体的竞速，显著提升了安全性和竞速表现。

关键结果

在真实四旋翼竞速中，联盟训练策略在单人计时赛中实现最快首圈5.54秒，优于人类冠军6.63秒，且完成率达100%。多智能体竞速中，最多4个智能体同时竞赛，联盟策略完成率超过90%，碰撞率较单智能体基线降低50%。
大规模仿真评测涵盖64,000场四人竞速，联盟训练策略平均圈速4.96秒，较单智能体4.93秒略慢0.03秒，但完成率显著提升至90%以上，展现出优异的安全性和泛化能力。
消融实验显示，去除Perceiver注意力编码器导致碰撞率显著上升，尤其是撞击赛道门，表明该编码器对处理多对手观测的顺序不变性和数量变化至关重要。

研究意义

本研究突破了传统单智能体强化学习在动态多智能体物理环境中的局限，首次实现了高速四旋翼竞速中多智能体安全协同，显著降低碰撞风险。该成果为无人机群体协同、城市空中交通及多机器人系统的安全共存提供了理论与实践基础，推动了多智能体强化学习从仿真向现实应用的关键转变，解决了复杂物理交互和非平稳环境下的安全问题，具有广泛的学术和工业价值。

技术贡献

本文技术贡献包括：1) 提出基于联盟训练的多智能体强化学习框架，融合多样化对手策略提升策略泛化；2) 设计基于Perceiver的注意力编码器，实现对变数量对手观测的高效处理，保证输入顺序不变性；3) 引入粒子下洗模型模拟空气动力学相互作用，提升物理交互的真实性和策略鲁棒性；4) 在真实四旋翼竞速平台实现零样本迁移至人类对手竞赛，验证了方法的实用性和安全性。

新颖性

本研究首次将联盟训练与物理真实感空气动力学建模结合，解决了高速多智能体四旋翼竞速中的安全协同难题。与以往仅限于低速或双智能体竞速不同，本文实现了多达八智能体的高密度竞速，且策略具备零样本泛化能力，显著提升了多智能体强化学习在现实动态环境中的实用价值。

局限性

当前方法在极端多智能体密度（超过8个）环境下的安全性和性能尚未充分验证，存在潜在的策略退化风险。
空气动力学下洗模型为近似模拟，未涵盖所有复杂气流效应，可能限制策略在更复杂环境中的表现。
训练依赖高质量仿真环境和运动捕捉系统，现实部署对硬件和感知系统的依赖较大，限制了普适性。

未来方向

未来研究可探索更高智能体密度下的安全协同策略，结合更精细的空气动力学模型提升物理交互模拟精度。同时，发展更强的感知与状态估计技术，减少对运动捕捉系统的依赖，实现更广泛的现实场景部署。此外，研究多智能体与人类混合群体的长期交互机制，促进无人机与人类操作员的安全共存。

AI 总览摘要

自主系统在孤立或仿真环境中已实现超人表现，但在共享动态的现实空间中仍显脆弱，主要因传统单智能体范式忽视其他行为体，导致协调失败。本文通过多智能体强化学习，提出联盟训练框架，解决了多智能体高速四旋翼竞速中的安全协同难题。该框架利用Perceiver注意力编码器处理多变的对手观测，结合粒子下洗模型模拟空气动力学相互作用，训练智能体在高达22米/秒的速度下实现安全且灵活的竞速。

联盟训练通过引入多样化对手策略，促进智能体学习主动避撞、超车及复杂物理交互，显著提升了策略的泛化和鲁棒性。实验证明，训练策略在真实环境中超越五届瑞士冠军人类飞手，完成率提升至90%以上，碰撞率较单智能体基线降低50%。

技术上，本文创新性地将联盟训练与物理真实感空气动力学建模结合，突破了以往多智能体强化学习在现实高速物理环境中的应用瓶颈。消融实验表明，Perceiver编码器对多对手观测处理至关重要，保证了策略的安全性和稳定性。

本研究不仅推动了无人机竞速领域的发展，也为多机器人系统在仓储物流、城市空中交通等复杂共享环境中的安全协同提供了理论和实践基础。未来工作将聚焦于提升多智能体密度下的安全性，完善物理交互模型，及实现更广泛的现实部署。

综上所述，本研究展示了多智能体强化学习在实现高速安全协同中的巨大潜力，强调了多样化对手训练和物理交互建模的重要性，为未来自主系统的安全共存开辟了新路径。

深度分析

研究背景

近年来，自主机器人技术迅猛发展，强化学习推动了机器人在复杂环境中的自主决策能力。从早期的单智能体任务，如机器人行走、移动操作，到复杂的无人机导航，强化学习已实现超人级表现。代表性工作包括AlphaGo在围棋中的突破、StarCraft II和Dota 2中的多智能体竞技。然而，这些成果大多局限于仿真或单智能体环境，现实世界的多智能体动态交互仍面临巨大挑战。尤其在高速四旋翼竞速领域，先前研究多集中于单智能体或双智能体对抗，忽视了多智能体间复杂的物理和策略交互。多智能体系统面临状态空间指数级增长、非平稳环境和部分可观测性等问题，且物理碰撞带来的硬件损伤使安全性成为关键瓶颈。本文基于此背景，探索多智能体强化学习在高速四旋翼竞速中的安全协同，填补了现实物理环境中多智能体安全协作的空白。

核心问题

核心问题在于如何在高速动态环境中实现多智能体的安全且高效协同。具体挑战包括：1) 多智能体间复杂的物理耦合，如空气动力学下洗效应，导致飞行动态难以预测；2) 传统单智能体强化学习忽视对手行为，无法适应多样化竞争策略，导致碰撞频发；3) 状态空间随着智能体数量指数增长，增加学习难度；4) 现实环境中碰撞代价高昂，安全性要求极高。解决这些问题对于无人机群体协作、城市空中交通等多机器人系统的实际应用至关重要，然而现有方法多局限于低速、少量智能体或仿真环境，难以满足现实需求。

核心创新

本文的核心创新包括：

1. 联盟训练框架：借鉴游戏AI中的联盟训练和虚构自我博弈，构建多样化对手池，涵盖单智能体、独立多智能体及历史策略，促进策略泛化和鲁棒性。

2. Perceiver注意力编码器：设计基于Perceiver架构的注意力机制，处理变数量和无序的对手观测，保证输入顺序不变性，提升多智能体信息融合效率。

3. 空气动力学下洗建模：引入粒子模型模拟邻近飞行器产生的下洗效应，增强物理交互的真实性，促进策略学习考虑复杂动力学耦合。

4. 真实环境验证：首次在真实四旋翼竞速平台实现多达四智能体的高速安全竞速，并实现零样本迁移至人类对手竞赛，验证方法实用性。

这些创新突破了以往多智能体强化学习在现实高速物理环境中的应用瓶颈，提升了安全性和泛化能力。

方法详解

�� 联盟训练框架：采用Proximal Policy Optimization (PPO)算法，结合带LSTM的递归策略和值函数网络，捕获时间序列信息。

�� 多样化对手池：训练过程中智能体与单智能体策略、独立多智能体策略及历史策略交互，防止策略过拟合，提升泛化。

�� Perceiver注意力编码器：输入为自身状态及所有对手的相对位置和速度，编码器通过注意力机制处理变数量、无序对手观测，输出固定维度特征。

�� 空气动力学下洗模型：基于粒子系统模拟邻近飞行器产生的气流扰动，影响飞行动态，训练智能体学习保持安全距离。

�� 训练与仿真环境：使用Split-S赛道，包含七个门，训练智能体在多达八智能体的竞速中学习策略。

�� 现实部署：在220克、3英寸四旋翼平台上进行真实竞速，使用运动捕捉系统提供精确状态估计，实现策略零样本迁移至人类对手竞赛。

实验设计

实验设计包括仿真和真实环境两部分。仿真中，进行64,000场四智能体竞速，比较单智能体、独立PPO、虚构自我博弈、联盟训练及无Perceiver编码器消融策略。主要指标为平均圈速和完成率。真实环境中，使用220克四旋翼在Split-S赛道进行单人计时赛、AI-only多智能体竞速及混合人机竞速，评估策略的安全性和竞速表现。对手包括五届瑞士冠军人类飞手。实验还包括对策略的价值函数可视化，分析策略的预判和避撞行为。消融实验验证Perceiver编码器的重要性。

结果分析

联盟训练策略在真实环境中实现首圈最快5.54秒，优于人类冠军6.63秒，完成率达100%。多智能体竞速中，联盟策略完成率超过90%，碰撞率较单智能体基线降低50%。仿真评测显示联盟训练在64,000场竞速中平均圈速4.96秒，完成率90%以上，显著优于其他训练策略。消融实验表明去除Perceiver编码器导致碰撞率大幅上升，尤其是撞门事故，验证了其对多智能体观测处理的关键作用。价值函数可视化揭示策略具备前瞻性避撞能力，能主动调整飞行路径以避免未来碰撞。

应用场景

本研究成果适用于无人机竞速、城市空中交通、多机器人协同作业等场景。通过多智能体强化学习实现的安全协同策略，可提升无人机群体在复杂动态环境中的运行安全性和效率。该方法支持零样本迁移，便于快速部署于实际应用中。未来可扩展至仓储物流机器人群、搜索救援无人机编队等多智能体系统，推动自主系统与人类的安全共存。

局限与展望

当前方法在超过8智能体的高密度环境下性能和安全性尚未充分验证，存在策略退化风险。空气动力学下洗模型为近似模拟，未涵盖所有复杂气流效应，可能限制策略在更复杂环境中的表现。训练依赖高精度运动捕捉系统，现实部署对硬件和感知系统依赖较大，限制了普适性。未来需提升物理模型精度和感知鲁棒性，扩展策略适用范围。

通俗解读非专业人士也能看懂

想象你和朋友们在一个狭窄的游乐场里玩赛车游戏，每个人都想跑得最快，但又不能撞到别人。传统的赛车游戏里，你只需关注自己的速度和路线，忽略其他玩家的动作，这样很容易撞车。现在，想象你能提前预测朋友们的动作，知道他们会在哪个弯道减速或加速，从而调整自己的路线，既快又安全。论文中的多智能体强化学习就像教会无人机们学会这种“预测和协作”的能力，让它们在高速飞行时避免碰撞。

他们还设计了一个“联盟训练”的方法，让无人机们不断和各种不同风格的对手比赛，学会应对各种情况。就像你和不同朋友玩游戏，学会了多种策略一样。更厉害的是，他们还模拟了飞行中空气流动的影响，帮助无人机更好地适应真实的飞行环境。

最终，这些无人机不仅比人类飞手跑得快，还能减少一半的碰撞，表现出色。这个研究告诉我们，机器人要想在现实世界和人类安全共处，必须学会理解和预测其他“伙伴”的行为，而不是孤军奋战。

简单解释像给14岁少年讲一样

嘿，想象一下你和朋友们在玩超级刺激的无人机赛车！每个人都想赢，但飞得太快又容易撞到别人，超级危险。传统的无人机就像只顾自己飞，不管别人，结果经常撞车。现在，这篇论文教无人机们怎么像你一样聪明，学会观察和预测别人的动作，知道什么时候该加速，什么时候该躲开，保证既快又安全！

他们让无人机们不停地和不同的“对手”比赛，就像你和各种朋友玩游戏，学会了好多不同的技巧。还有，他们还告诉无人机们怎么应对飞行时空气吹来吹去的影响，飞得更稳。

结果呢？这些无人机不仅跑得比人类冠军还快，还能减少一半的撞车事故！这说明未来无人机可以和人类一起安全地飞来飞去，不用担心撞到人或者自己坏掉。是不是很酷？

术语表

多智能体强化学习 (Multi-Agent Reinforcement Learning)

一种强化学习方法，多个智能体在共享环境中同时学习和决策，需考虑彼此交互影响。

本文核心方法，用于训练多个无人机在竞速中协调动作。

联盟训练 (League Training)

通过让智能体与多样化对手（包括历史策略）对抗，提升策略泛化和鲁棒性的训练方法。

本文采用的训练框架，促进策略在多样化竞争环境中的适应性。

Proximal Policy Optimization (PPO)

一种策略梯度强化学习算法，平衡策略更新幅度，稳定训练过程。

本文用于训练无人机竞速策略的主要算法。

Perceiver注意力编码器 (Perceiver Attention Encoder)

基于注意力机制的编码器，能处理变长、无序输入，生成固定维度特征表示。

用于处理多智能体观测，保证输入顺序不变性。

空气动力学下洗 (Aerodynamic Downwash)

飞行器产生的气流向下扰动，影响邻近飞行器的飞行稳定性。

本文通过粒子模型模拟该效应，提升物理交互真实性。

零样本泛化 (Zero-Shot Generalization)

模型在未见过的新环境或任务中直接应用并表现良好。

本文策略能直接应用于与人类飞手竞赛，无需额外训练。

非平稳环境 (Non-Stationary Environment)

环境状态随时间变化，且受其他智能体行为影响，增加学习难度。

多智能体竞速环境的典型特征。

运动捕捉系统 (Motion Capture System)

通过摄像头和传感器实时跟踪物体位置和姿态的系统。

本文用于真实竞速中无人机状态估计。

虚构自我博弈 (Fictitious Self-Play)

智能体与自身历史策略对抗的训练方法，促进策略多样性。

联盟训练的组成部分之一。

递归神经网络 (Recurrent Neural Network, RNN)

处理序列数据的神经网络，能捕获时间依赖关系。

本文策略网络采用带LSTM的递归结构处理时间序列信息。

开放问题这项研究留下的未解疑问

1 当前方法在超过8个智能体的高密度环境中安全性和性能表现尚未充分验证，未来需探索更大规模多智能体系统的协同策略。
2 空气动力学下洗模型为近似模拟，未涵盖复杂气流扰动，限制了策略在更复杂物理环境中的适用性。
3 训练依赖高精度运动捕捉系统，现实部署中如何降低对昂贵硬件的依赖仍是挑战。
4 策略在长时间、多轮竞速中的稳定性和适应性尚未深入研究，尤其是面对动态环境变化和不确定性时。
5 多智能体与人类混合群体的长期交互机制和安全共存策略仍缺乏系统研究。

应用场景

近期应用

无人机竞速

提升多无人机高速竞速的安全性和竞技水平，实现更复杂的竞赛策略。

城市空中交通管理

为多无人机在城市空域的安全协同提供策略基础，减少碰撞风险。

仓储物流机器人群

支持多机器人在仓库中高效协同作业，避免碰撞，提高作业效率。

远期愿景

多机器人安全共存系统

实现机器人与人类在复杂动态环境中的安全共存，推动智能自动化社会发展。

自主无人机编队与救援

支持无人机编队在复杂灾害环境中协同作业，提高救援效率和安全性。

原文摘要

Autonomous systems have achieved superhuman performance in isolation or simulation, yet they remain brittle in shared, dynamic real-world spaces. This failure stems from the dominant single-agent paradigm for physical applications, where other actors are ignored or treated as environmental noise, preventing effective coordination. Here we show that multi-agent reinforcement learning provides the essential safety scaffolding required for real-world interaction. Using high-speed quadrotor racing as a high-stakes testbed, we train agents to navigate complex aerodynamic interactions and strategic maneuvering with a variable number of racers. Through league-based self-play, agents evolve sophisticated anticipatory behaviors, including proactive collision avoidance, overtaking, and handling multi-agent physical interactions, including aerodynamic downwash. Our agents outperform a champion-level human pilot in multi-player races at speeds exceeding 22 m/s, while simultaneously reducing collision rates by 50 % compared to state-of-the-art single-agent baselines. Crucially, training with diverse artificial agents enables zero-shot generalization to safer human interaction. These results suggest that the path to robust robotic co-existence lies not in isolated safety constraints, but in the rigorous demands of multi-agent interaction. Multimedia materials are available at: https://rpg.ifi.uzh.ch/marl

cs.RO cs.AI cs.LG cs.MA

参考文献 (20)

Fictitious Self-Play in Extensive-Form Games

Johannes Heinrich, Marc Lanctot, David Silver

2015 339 引用 ⭐ 高影响力

Deep Reinforcement Learning from Self-Play in Imperfect-Information Games

Johannes Heinrich, David Silver

2016 453 引用 ⭐ 高影响力查看解读 →

Champion-level drone racing using deep reinforcement learning

Elia Kaufmann, L. Bauersfeld, Antonio Loquercio 等

2023 795 引用 ⭐ 高影响力

Grandmaster level in StarCraft II using multi-agent reinforcement learning

O. Vinyals, Igor Babuschkin, Wojciech M. Czarnecki 等

2019 4349 引用 ⭐ 高影响力

Agilicious: Open-source and open-hardware agile quadrotor for vision-based flight

Philipp Foehn, Elia Kaufmann, Angel Romero 等

2022 167 引用 ⭐ 高影响力查看解读 →

Reaching the limit in autonomous racing: Optimal control versus reinforcement learning

Yunlong Song, Angel Romero, Matthias Müller 等

2023 279 引用 ⭐ 高影响力查看解读 →

Perceiver: General Perception with Iterative Attention

Andrew Jaegle, Felix Gimeno, Andrew Brock 等

2021 1426 引用查看解读 →

Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation

Zipeng Fu, Tony Zhao, Chelsea Finn

2024 643 引用查看解读 →

Learning quadrupedal locomotion over challenging terrain

Joonho Lee, Jemin Hwangbo, Lorenz Wellhausen 等

2020 1606 引用查看解读 →

Stable-Baselines3: Reliable Reinforcement Learning Implementations

A. Raffin, Ashley Hill, A. Gleave 等

2021 2794 引用

Human-level performance in 3D multiplayer games with population-based reinforcement learning

Max Jaderberg, Wojciech M. Czarnecki, Iain Dunning 等

2018 803 引用查看解读 →

TidyBot: Personalized Robot Assistance with Large Language Models

Jimmy Wu, Rika Antonova, Adam Kan 等

2023 433 引用查看解读 →

Superhuman AI for heads-up no-limit poker: Libratus beats top professionals

Noam Brown, T. Sandholm

2018 806 引用

Environment as Policy: Learning to Race in Unseen Tracks

Hongze Wang, Jiaxu Xing, Nico Messikommer 等

2024 11 引用查看解读 →

Mastering the game of Go without human knowledge

David Silver, Julian Schrittwieser, K. Simonyan 等

2017 10436 引用

Dota 2 with Large Scale Deep Reinforcement Learning

Christopher Berner, Greg Brockman, Brooke Chan 等

2019 2141 引用查看解读 →

A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning

Marc Lanctot, V. Zambaldi, A. Gruslys 等

2017 729 引用查看解读 →

MonoRace: Winning Champion-Level Drone Racing with Robust Monocular AI

Stavrow Bahnam, Robin Ferede, Till M. Blaha 等

2026 4 引用查看解读 →

Robotics Meets Fluid Dynamics: A Characterization of the Induced Airflow Below a Quadrotor as a Turbulent Jet

L. Bauersfeld, K. Muller, Dominic Ziegler 等

2024 11 引用查看解读 →

Multi-agent deep reinforcement learning: a survey

Sven Gronauer, K. Diepold

2021 872 引用

Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

多智能体强化学习 (Multi-Agent Reinforcement Learning)

联盟训练 (League Training)

Proximal Policy Optimization (PPO)

Perceiver注意力编码器 (Perceiver Attention Encoder)

空气动力学下洗 (Aerodynamic Downwash)

零样本泛化 (Zero-Shot Generalization)

非平稳环境 (Non-Stationary Environment)

运动捕捉系统 (Motion Capture System)

虚构自我博弈 (Fictitious Self-Play)

递归神经网络 (Recurrent Neural Network, RNN)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

无人机竞速

城市空中交通管理

仓储物流机器人群

远期愿景

多机器人安全共存系统

自主无人机编队与救援

原文摘要

参考文献 (20)

相关论文

Increasing Resilience of Continuum Robots via Motion Planning Algorithms

ARC: Adaptive Robust Joint State and Covariance Estimation

Do as I Do: Dexterous Manipulation Data from Everyday Human Videos

Observability and Consistency Analysis for Visual-Inertial Navigation with Anchored Feature Parameterizations

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

R2RDreamer: 3D-aware Data Augmentation for Spatially-generalized 2D Manipulation Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问