RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

TL;DR

RAD-2通过生成器-判别器框架将强化学习扩展到自动驾驶中，降低56%碰撞率。

cs.CV 🔴 高级 2026-04-17 36 次浏览

Hao Gao Shaoyu Chen Yifan Zhu Yuehao Song Wenyu Liu Qian Zhang Xinggang Wang

强化学习自动驾驶生成器-判别器轨迹规划模拟环境

核心发现

方法论

RAD-2采用生成器-判别器框架，其中生成器基于扩散模型生成多样化的轨迹候选，判别器通过强化学习优化以重新排序这些候选。该框架通过解耦设计避免了在高维轨迹空间直接应用稀疏标量奖励，从而提高了优化稳定性。此外，引入了时间一致性群体相对策略优化和基于策略的生成器优化，以增强强化学习的效果。

关键结果

RAD-2在大规模基准测试中将碰撞率降低了56%，显著优于强大的扩散模型规划器。这一结果表明，RAD-2在复杂城市交通环境中能够提供更高的安全性和驾驶平稳性。
通过在真实车辆测试中，RAD-2展示了更好的感知安全性和驾驶平稳性，尤其是在复杂的城市交通中。这些测试证明了RAD-2在实际应用中的潜力。
在实验中，RAD-2通过BEV-Warp模拟环境进行高吞吐量的闭环评估，展示了其在特征级别的高效性，克服了现有模拟器的局限性。

研究意义

RAD-2的提出解决了自动驾驶中多模态未来不确定性建模和闭环交互的鲁棒性问题。通过引入生成器-判别器框架，RAD-2在不依赖专家监督的情况下，显著提高了系统的安全性和效率。这一方法不仅在学术界具有重要意义，还为工业界提供了一种可扩展的自动驾驶解决方案。

技术贡献

RAD-2的技术贡献在于其生成器-判别器框架的解耦设计，避免了直接在高维轨迹空间应用稀疏标量奖励。此外，提出的时间一致性群体相对策略优化和基于策略的生成器优化为强化学习提供了新的理论保证和工程可能性。

新颖性

RAD-2首次将生成器-判别器框架应用于自动驾驶的闭环规划中，通过解耦设计提高了优化稳定性。与现有的扩散模型规划器相比，RAD-2在处理高维轨迹空间时表现出更好的鲁棒性和效率。

局限性

RAD-2在处理极端复杂的交通场景时，可能会出现性能下降的情况。这是因为在这些场景中，轨迹候选的多样性和质量可能不足以应对所有潜在的驾驶情况。
该方法在模拟环境中的表现可能与真实世界存在差异，尤其是在模拟器无法完全捕捉真实交通动态的情况下。
虽然RAD-2在大多数情况下表现优异，但在某些特定场景下，可能需要额外的专家监督以确保安全性。

未来方向

未来的研究方向包括进一步优化生成器和判别器的协同工作，以提高轨迹候选的质量和多样性。此外，探索更复杂的模拟环境和真实世界数据集，以验证RAD-2在不同驾驶条件下的鲁棒性和适应性。

AI 总览摘要

高水平的自动驾驶系统需要能够建模多模态未来不确定性的运动规划器，同时在闭环交互中保持鲁棒性。尽管基于扩散的规划器在建模复杂轨迹分布方面表现出色，但它们在仅通过模仿学习训练时往往会出现随机不稳定性和缺乏纠正性负反馈的问题。为了解决这些问题，我们提出了RAD-2，一种用于闭环规划的统一生成器-判别器框架。

RAD-2的核心是一个基于扩散的生成器，用于生成多样化的轨迹候选，而一个通过强化学习优化的判别器则根据长期驾驶质量重新排序这些候选。这种解耦设计避免了在高维轨迹空间直接应用稀疏标量奖励，从而提高了优化稳定性。为了进一步增强强化学习，我们引入了时间一致性群体相对策略优化，该方法利用时间一致性来缓解信用分配问题。此外，我们提出了基于策略的生成器优化，将闭环反馈转换为结构化的纵向优化信号，并逐步将生成器转向高奖励轨迹流形。

为了支持高效的大规模训练，我们引入了BEV-Warp，一种通过空间扭曲直接在鸟瞰图特征空间中执行闭环评估的高吞吐量模拟环境。RAD-2在与强大的扩散模型规划器相比时，将碰撞率降低了56%。在真实世界部署中，RAD-2进一步展示了在复杂城市交通中提高的感知安全性和驾驶平稳性。

RAD-2的提出不仅在学术界具有重要意义，还为工业界提供了一种可扩展的自动驾驶解决方案。通过引入生成器-判别器框架，RAD-2在不依赖专家监督的情况下，显著提高了系统的安全性和效率。这一方法解决了自动驾驶中多模态未来不确定性建模和闭环交互的鲁棒性问题。

尽管RAD-2在大多数情况下表现优异，但在某些特定场景下，可能需要额外的专家监督以确保安全性。此外，该方法在模拟环境中的表现可能与真实世界存在差异，尤其是在模拟器无法完全捕捉真实交通动态的情况下。未来的研究方向包括进一步优化生成器和判别器的协同工作，以提高轨迹候选的质量和多样性。

深度分析

研究背景

自动驾驶技术的快速发展使得运动规划成为该领域的核心挑战之一。传统的规划方法，如基于回归和选择的规划器，通常依赖于确定性预测或离散候选集，这限制了它们在复杂驾驶场景中的表现。近年来，基于扩散的模仿学习规划器因其能够生成多模态连续轨迹而受到关注。然而，这些方法在处理真实驾驶数据集时面临随机不稳定性和缺乏纠正性负反馈的问题。为了克服这些挑战，研究人员开始探索将强化学习与模仿学习相结合的方法，以提高策略学习的效果。

核心问题

自动驾驶中的核心问题在于如何在不确定的未来环境中进行鲁棒的运动规划。现有的基于扩散的模仿学习规划器虽然能够生成复杂的轨迹分布，但在处理高维连续轨迹时面临优化不稳定性的问题。此外，模仿学习缺乏负反馈，导致在真实驾驶场景中可能出现不现实的行为。为了实现高效的闭环规划，需要一种能够在不依赖专家监督的情况下，提供高质量轨迹候选的解决方案。

核心创新

RAD-2的核心创新在于其生成器-判别器框架的解耦设计：

�� 生成器基于扩散模型生成多样化的轨迹候选，确保轨迹的多样性和质量。
�� 判别器通过强化学习优化，以重新排序轨迹候选，根据长期驾驶质量进行评估。
�� 时间一致性群体相对策略优化利用时间一致性来缓解信用分配问题，提高了策略优化的稳定性。
�� 基于策略的生成器优化将闭环反馈转换为结构化的纵向优化信号，逐步将生成器转向高奖励轨迹流形。

方法详解

RAD-2的方法论包括以下几个关键步骤：

�� 生成器：基于扩散模型生成多样化的轨迹候选，输入为当前观测，输出为候选轨迹集。
�� 判别器：通过强化学习优化，输入为候选轨迹集，输出为重新排序的轨迹。
�� 时间一致性群体相对策略优化：利用时间一致性来缓解信用分配问题，确保策略优化的稳定性。
�� 基于策略的生成器优化：将闭环反馈转换为结构化的纵向优化信号，逐步将生成器转向高奖励轨迹流形。

实验设计

实验设计包括在BEV-Warp模拟环境中进行高吞吐量的闭环评估。使用的大规模基准测试数据集涵盖了多种驾驶场景，包括安全性和效率相关的场景。实验中比较了RAD-2与现有的强大扩散模型规划器的性能，重点评估碰撞率和驾驶平稳性。此外，还进行了消融研究，以验证各个组件的贡献。

结果分析

实验结果表明，RAD-2在大规模基准测试中将碰撞率降低了56%，显著优于强大的扩散模型规划器。此外，RAD-2在真实车辆测试中展示了更好的感知安全性和驾驶平稳性，尤其是在复杂的城市交通中。消融研究表明，时间一致性群体相对策略优化和基于策略的生成器优化对整体性能的提升具有重要贡献。

应用场景

RAD-2的应用场景包括自动驾驶汽车的运动规划，特别是在复杂城市交通环境中。该方法能够在不依赖专家监督的情况下，提供高质量的轨迹候选，提高系统的安全性和效率。工业界可以利用RAD-2的生成器-判别器框架，开发更为鲁棒和高效的自动驾驶解决方案。

局限与展望

通俗解读非专业人士也能看懂

想象一下你是一位厨师，正在为一场大型宴会准备多道菜品。你需要确保每道菜的味道都符合客人的口味，同时还要保证出菜的速度和质量。RAD-2就像是你的厨房助手，它能够帮助你在众多菜谱中挑选出最合适的菜品组合。首先，RAD-2会生成一系列不同的菜谱（轨迹候选），这些菜谱涵盖了各种可能的口味和风格。然后，RAD-2会根据客人的反馈（强化学习优化）对这些菜谱进行重新排序，确保最终选出的菜品组合既美味又符合客人的期望。通过这种方式，RAD-2帮助你在不确定的环境中做出最佳决策，确保宴会的成功举办。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你正在玩一个超级酷的赛车游戏。你需要在游戏中选择最佳的路线来赢得比赛，但每条路线都有不同的障碍和挑战。RAD-2就像是你的游戏助手，它能帮你在各种路线中找到最安全、最快的那一条。首先，RAD-2会生成许多不同的路线选项，就像给你提供了一堆地图。然后，它会根据你之前的游戏表现和反馈，重新排列这些路线，确保你选择的路线既能避开障碍，又能快速到达终点。这样一来，你就能在游戏中轻松获胜啦！是不是很酷？

术语表

生成器-判别器框架

一种结合生成和判别过程的框架，用于生成多样化的候选并根据质量进行排序。

在RAD-2中用于轨迹生成和排序。

扩散模型

一种生成模型，通过逐步添加噪声来生成数据样本。

用于生成多样化的轨迹候选。

强化学习

一种通过与环境交互学习最优策略的机器学习方法。

用于优化判别器以重新排序轨迹候选。

时间一致性群体相对策略优化

一种利用时间一致性来缓解信用分配问题的优化方法。

用于提高策略优化的稳定性。

基于策略的生成器优化

一种将闭环反馈转换为结构化的纵向优化信号的方法。

用于逐步将生成器转向高奖励轨迹流形。

BEV-Warp

一种通过空间扭曲直接在鸟瞰图特征空间中执行闭环评估的模拟环境。

用于高吞吐量的闭环评估。

碰撞率

在给定时间内发生碰撞的频率。

用于评估RAD-2在实验中的性能。

模仿学习

一种通过模仿专家行为来学习策略的机器学习方法。

与强化学习结合以提高策略学习效果。

轨迹候选

生成器生成的多样化轨迹集合，用于选择最佳路径。

在RAD-2中用于轨迹生成和排序。

闭环规划

一种在反馈回路中进行的规划方法，能够动态调整决策。

RAD-2的核心应用场景。

开放问题这项研究留下的未解疑问

1 如何在极端复杂的交通场景中提高轨迹候选的多样性和质量，以应对所有潜在的驾驶情况。这需要更先进的生成器设计和更高效的优化算法。
2 在模拟环境中，如何更准确地捕捉真实交通动态，以缩小模拟与现实之间的差距。这需要更高保真度的模拟器和更真实的数据集。
3 如何在不依赖额外专家监督的情况下，确保RAD-2在所有场景中的安全性。这需要更强大的判别器和更全面的安全评估机制。
4 如何进一步优化生成器和判别器的协同工作，以提高轨迹候选的质量和多样性。这需要更深入的算法研究和实验验证。
5 如何在不同驾驶条件下验证RAD-2的鲁棒性和适应性，以确保其在全球范围内的广泛应用。这需要跨区域的数据集和多样化的测试场景。

应用场景

近期应用

城市自动驾驶

RAD-2可以用于城市环境中的自动驾驶，帮助车辆在复杂交通中安全高效地行驶。

高级驾驶辅助系统

RAD-2可以集成到现有的驾驶辅助系统中，提高其在多变交通条件下的决策能力。

无人驾驶出租车

RAD-2可以用于无人驾驶出租车的路径规划，确保乘客的安全和舒适。

远期愿景

全球自动驾驶网络

通过进一步优化，RAD-2有望成为全球自动驾驶网络的核心技术，支持跨区域的自动驾驶应用。

智能交通管理系统

RAD-2可以用于智能交通管理系统，优化城市交通流量，提高整体交通效率。

原文摘要

High-level autonomous driving requires motion planners capable of modeling multimodal future uncertainties while remaining robust in closed-loop interactions. Although diffusion-based planners are effective at modeling complex trajectory distributions, they often suffer from stochastic instabilities and the lack of corrective negative feedback when trained purely with imitation learning. To address these issues, we propose RAD-2, a unified generator-discriminator framework for closed-loop planning. Specifically, a diffusion-based generator is used to produce diverse trajectory candidates, while an RL-optimized discriminator reranks these candidates according to their long-term driving quality. This decoupled design avoids directly applying sparse scalar rewards to the full high-dimensional trajectory space, thereby improving optimization stability. To further enhance reinforcement learning, we introduce Temporally Consistent Group Relative Policy Optimization, which exploits temporal coherence to alleviate the credit assignment problem. In addition, we propose On-policy Generator Optimization, which converts closed-loop feedback into structured longitudinal optimization signals and progressively shifts the generator toward high-reward trajectory manifolds. To support efficient large-scale training, we introduce BEV-Warp, a high-throughput simulation environment that performs closed-loop evaluation directly in Bird's-Eye View feature space via spatial warping. RAD-2 reduces the collision rate by 56% compared with strong diffusion-based planners. Real-world deployment further demonstrates improved perceived safety and driving smoothness in complex urban traffic.

cs.CV

参考文献 (20)

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

Hao Gao, Shaoyu Chen, Bo Jiang 等

2025 58 引用 ⭐ 高影响力查看解读 →

Senna-2: Aligning VLM and End-to-End Driving Policy for Consistent Decision Making and Planning

Yuehao Song, Shaoyu Chen, Haolan Gao 等

2026 1 引用 ⭐ 高影响力查看解读 →

Reinforced Refinement With Self-Aware Expansion for End-to-End Autonomous Driving

Haochen Liu, Tianyu Li, Haohan Yang 等

2025 14 引用查看解读 →

DriveDPO: Policy Learning via Safety DPO For End-to-End Autonomous Driving

Shuyao Shang, Yuntao Chen, Yu-Quan Wang 等

2025 14 引用查看解读 →

CARLA: An Open Urban Driving Simulator

Alexey Dosovitskiy, Germán Ros, Felipe Codevilla 等

2017 6549 引用查看解读 →

Reinforcement Learning with Action Chunking

Qiyang Li, Zhiyuan Zhou, Sergey Levine

2025 39 引用查看解读 →

Learning to Drive in a Day

Alex Kendall, Jeffrey Hawke, David Janz 等

2018 772 引用查看解读 →

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Adam Suma, Sam Dauncey

2025 2371 引用

AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

Bo Jiang, Shaoyu Chen, Qian Zhang 等

2025 84 引用查看解读 →

VAD: Vectorized Scene Representation for Efficient Autonomous Driving

Bo Jiang, Shaoyu Chen, Qing Xu 等

2023 585 引用查看解读 →

Group Sequence Policy Optimization

Chujie Zheng, Shixuan Liu, Mingze Li 等

2025 392 引用查看解读 →

Refining Diffusion Planner for Reliable Behavior Synthesis by Automatic Detection of Infeasible Plans

Kyowoon Lee, Seongun Kim, Jaesik Choi

2023 24 引用查看解读 →

ReconDreamer-RL: Enhancing Reinforcement Learning via Diffusion-based Scene Reconstruction

Chaojun Ni, Guosheng Zhao, Xiaofeng Wang 等

2025 14 引用查看解读 →

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

Zewei Zhou, Tianhui Cai, Seth Z. Zhao 等

2025 123 引用查看解读 →

DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving

Jialv Zou, Shaoyu Chen, Bencheng Liao 等

2025 9 引用查看解读 →

OpenAI o1 System Card

Ahmed El-Kishky

2024 1645 引用

GAIA-1: A Generative World Model for Autonomous Driving

Anthony Hu, Lloyd Russell, Hudson Yeo 等

2023 499 引用查看解读 →

Language Models are Few-Shot Learners

Tom B. Brown, Benjamin Mann, Nick Ryder 等

2020 56709 引用查看解读 →

MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning

Haoyu Fu, Diankun Zhang, Zongchuang Zhao 等

2025 9 引用查看解读 →

ReconDreamer++: Harmonizing Generative and Reconstructive Models for Driving Scene Representation

Guosheng Zhao, Xiaofeng Wang, Chaojun Ni 等

2025 30 引用查看解读 →

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

生成器-判别器框架

扩散模型

强化学习

时间一致性群体相对策略优化

基于策略的生成器优化

BEV-Warp

碰撞率

模仿学习

轨迹候选

闭环规划

开放问题 这项研究留下的未解疑问

应用场景

近期应用

城市自动驾驶

高级驾驶辅助系统

无人驾驶出租车

远期愿景

全球自动驾驶网络

智能交通管理系统

原文摘要

参考文献 (20)

相关论文

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

SS3D: End2End Self-Supervised 3D from Web Videos

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问