Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

TL;DR

提出AdvGRPO框架，结合密集多通道奖励和解耦优势归一，实现语言模型的攻防联合优化，提升攻击成功率和防御鲁棒性。

cs.CL 🔴 高级 2026-06-09 71 次浏览

Blake Bullwinkel Eugenia Kim Amanda Minnich Mark Russinovich

强化学习对抗训练语言模型 GRPO 红队对抗

核心发现

方法论

本文提出的AdvGRPO框架基于Group Relative Policy Optimization (GRPO)，结合多通道密集奖励和解耦优势归一技术，用于攻防模型的联合训练。具体流程包括：首先，通过逐步从单轮到多轮闭环攻击的课程训练，增强攻击模型的响应适应能力；其次，采用交替更新攻击者和防御者模型，确保两者在动态对抗中共同优化。奖励机制设计包括攻击奖励、提示奖励、思考追踪奖励和有用性奖励，利用GPT-4.1作为判别者进行评分。优势归一采用逐通道标准化（GDPO），避免奖励信号崩溃。训练过程中，模型通过多轮交互实现对抗策略的逐步提升，最终获得高效且具有迁移能力的攻击策略，同时训练的防御模型在安全基准测试中表现优越。该方法在多模型、多任务环境中表现出较强的稳定性和泛化能力。

关键结果

AdvGRPO在单轮、多轮及推理攻击任务中显著提升攻击成功率（ASR），在Qwen2.5-14B模型上多轮攻击达90%以上，推理模型如Qwen3.5-9B在单轮中也达71%以上，较未训练模型提升超过50%。
在迁移攻击方面，AdvGRPO训练的攻击模型对未见防御模型表现出优异的泛化能力，跨模型转移ASR在不同防御模型上均超过80%。
防御模型通过联合对抗训练，显著降低在HarmBench、WildJailbreak等安全基准上的ASR，提升安全性，防御成功率从原始模型的18.8%降至不足1%。同时，防御模型在保持知识和推理能力方面未受明显影响，表现出良好的实用性。

研究意义

本研究突破了以往单向训练的限制，提出了适用于动态对抗环境的联合优化框架，有效提升了语言模型在安全和鲁棒性方面的表现。通过引入密集奖励、多通道归一和课程训练策略，解决了GRPO在对抗训练中的不稳定问题，为未来自动化红蓝队对抗提供了新的技术路径。这不仅推动了AI安全研究的理论发展，也为实际应用中的模型安全防护提供了可行方案，有助于构建更安全、更可信的AI系统。

技术贡献

技术上，本文首次将GRPO应用于攻防联合训练，结合多通道奖励和解耦优势归一技术，有效缓解了奖励信号崩溃问题。提出的课程训练策略逐步引导模型从简单到复杂的攻击场景，增强模型的适应性。采用GPT-4.1作为判别器实现高质量奖励评分，确保训练的精确性和稳定性。实验中，模型在多轮、多任务环境下表现出优越的泛化能力和迁移能力，验证了方法的有效性和实用性。

新颖性

本研究的创新点在于首次将GRPO引入语言模型的攻防联合训练，结合多通道密集奖励和解耦优势归一技术，突破了此前GRPO在对抗训练中的不稳定性。相比传统的单向训练或DPO方法，AdvGRPO实现了多轮闭环攻击的优化，增强了攻击策略的适应性和迁移能力。课程训练策略的引入也为模型逐步学习复杂场景提供了新思路，具有较高的创新价值。

局限性

当前方法对大规模模型的训练成本较高，尤其是在多轮交互和多通道奖励计算中，计算资源消耗较大，限制了其在极大模型上的直接应用。
模型在某些特定场景下仍存在泛化不足的问题，尤其是在面对极端或未见的防御策略时，攻击成功率有所下降。
奖励评分依赖于GPT-4.1判别器的准确性，若判别器出现偏差，可能影响训练效果和模型安全性。

未来方向

未来工作将聚焦于降低训练成本，探索更高效的奖励机制和模型压缩技术。同时，计划扩展多模态对抗训练，结合图像和文本信息，提升模型在多样化场景中的鲁棒性。此外，将研究如何结合人类专家反馈，进一步提升模型的安全性和可解释性，为实际部署提供更可靠的技术保障。

AI 总览摘要

在当今人工智能快速发展的背景下，确保大型语言模型（LLMs）的安全性和鲁棒性成为关键挑战。传统的红队（攻击者）与蓝队（防御者）训练方式多依赖静态数据集或手工设计的攻击策略，难以应对不断演变的攻击手段。为此，本文提出了AdvGRPO，一种基于Group Relative Policy Optimization（GRPO）的攻防联合训练框架，旨在通过强化学习实现模型的持续自我优化。

AdvGRPO的核心创新在于结合密集多通道奖励机制和解耦优势归一技术，有效解决了GRPO在对抗训练中的不稳定问题。训练流程设计为逐步课程，从单轮攻击逐步过渡到多轮闭环攻击，增强模型的响应适应能力。攻击者和防御者模型交替更新，形成动态对抗环境，促使双方不断优化策略。奖励机制包括攻击成功率、提示策略、推理思考和有用性指标，利用GPT-4.1作为判别器进行高质量评分，确保训练的稳定性和效果。

实验结果显示，AdvGRPO在多项安全基准测试中表现出色。攻击模型在Qwen2.5-14B上多轮攻击成功率超过90%，在推理模型如Qwen3.5-9B中单轮攻击成功率达70%以上，显著优于未训练模型。防御模型经过联合对抗训练后，在HarmBench、WildJailbreak等基准上将攻击成功率降低至不足1%，大幅提升安全性，同时保持了模型的知识和推理能力。这些结果验证了AdvGRPO在提升模型安全性方面的潜力。

该研究不仅丰富了强化学习在AI安全中的应用场景，也为未来自动化红蓝队对抗提供了理论基础和技术方案。通过引入多通道奖励和逐步课程训练，解决了现有方法中的不稳定问题，为构建更安全、更可信的AI系统提供了新的思路。未来，研究将致力于降低训练成本，扩展多模态对抗能力，并结合人类反馈，推动AI安全技术的实际落地。

深度解读

原文摘要

AI red teaming must continually adapt to evolving attackers and defenders. Reinforcement learning offers a promising approach to discovering novel attacks, and co-training methods can produce more robust defenders in tandem. Recent works have demonstrated the efficacy of attacker-defender co-training by applying PPO and DPO, but report that GRPO is unstable in this setting. We introduce AdvGRPO, a co-training framework that makes GRPO viable for joint attacker-defender optimization using dense multi-channel rewards and decoupled advantage normalization. Training progresses through a curriculum from single-turn to closed-loop multi-turn attacks before bootstrapping co-training, where attacker and defender models are updated in alternation. We show that our method can produce highly effective and transferable attacks and that co-trained defenders outperform baselines on safety benchmarks.

cs.CL cs.AI cs.LG

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

相关论文

The Register Gap: A Meaning Intelligence Framework for Nigerian Public Discourse

Learning User Simulators with Turing Rewards

RubricsTree: Scalable and Evolving Open-Ended Evaluation of Personal Health Agents across Health Memory and Medical Skills

Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio

Characterizing Cultural Localization in AI-Generated Stories

Operads for compositional reasoning in LLMs