Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

TL;DR

提出AdvGRPO框架,结合密集多通道奖励和解耦优势归一,实现语言模型的攻防联合优化,提升攻击成功率和防御鲁棒性。

cs.CL 🔴 高级 2026-06-09 71 次浏览
Blake Bullwinkel Eugenia Kim Amanda Minnich Mark Russinovich
强化学习 对抗训练 语言模型 GRPO 红队对抗

核心发现

方法论

本文提出的AdvGRPO框架基于Group Relative Policy Optimization (GRPO),结合多通道密集奖励和解耦优势归一技术,用于攻防模型的联合训练。具体流程包括:首先,通过逐步从单轮到多轮闭环攻击的课程训练,增强攻击模型的响应适应能力;其次,采用交替更新攻击者和防御者模型,确保两者在动态对抗中共同优化。奖励机制设计包括攻击奖励、提示奖励、思考追踪奖励和有用性奖励,利用GPT-4.1作为判别者进行评分。优势归一采用逐通道标准化(GDPO),避免奖励信号崩溃。训练过程中,模型通过多轮交互实现对抗策略的逐步提升,最终获得高效且具有迁移能力的攻击策略,同时训练的防御模型在安全基准测试中表现优越。该方法在多模型、多任务环境中表现出较强的稳定性和泛化能力。

关键结果

  • AdvGRPO在单轮、多轮及推理攻击任务中显著提升攻击成功率(ASR),在Qwen2.5-14B模型上多轮攻击达90%以上,推理模型如Qwen3.5-9B在单轮中也达71%以上,较未训练模型提升超过50%。
  • 在迁移攻击方面,AdvGRPO训练的攻击模型对未见防御模型表现出优异的泛化能力,跨模型转移ASR在不同防御模型上均超过80%。
  • 防御模型通过联合对抗训练,显著降低在HarmBench、WildJailbreak等安全基准上的ASR,提升安全性,防御成功率从原始模型的18.8%降至不足1%。同时,防御模型在保持知识和推理能力方面未受明显影响,表现出良好的实用性。

研究意义

本研究突破了以往单向训练的限制,提出了适用于动态对抗环境的联合优化框架,有效提升了语言模型在安全和鲁棒性方面的表现。通过引入密集奖励、多通道归一和课程训练策略,解决了GRPO在对抗训练中的不稳定问题,为未来自动化红蓝队对抗提供了新的技术路径。这不仅推动了AI安全研究的理论发展,也为实际应用中的模型安全防护提供了可行方案,有助于构建更安全、更可信的AI系统。

技术贡献

技术上,本文首次将GRPO应用于攻防联合训练,结合多通道奖励和解耦优势归一技术,有效缓解了奖励信号崩溃问题。提出的课程训练策略逐步引导模型从简单到复杂的攻击场景,增强模型的适应性。采用GPT-4.1作为判别器实现高质量奖励评分,确保训练的精确性和稳定性。实验中,模型在多轮、多任务环境下表现出优越的泛化能力和迁移能力,验证了方法的有效性和实用性。

新颖性

本研究的创新点在于首次将GRPO引入语言模型的攻防联合训练,结合多通道密集奖励和解耦优势归一技术,突破了此前GRPO在对抗训练中的不稳定性。相比传统的单向训练或DPO方法,AdvGRPO实现了多轮闭环攻击的优化,增强了攻击策略的适应性和迁移能力。课程训练策略的引入也为模型逐步学习复杂场景提供了新思路,具有较高的创新价值。

局限性

  • 当前方法对大规模模型的训练成本较高,尤其是在多轮交互和多通道奖励计算中,计算资源消耗较大,限制了其在极大模型上的直接应用。
  • 模型在某些特定场景下仍存在泛化不足的问题,尤其是在面对极端或未见的防御策略时,攻击成功率有所下降。
  • 奖励评分依赖于GPT-4.1判别器的准确性,若判别器出现偏差,可能影响训练效果和模型安全性。

未来方向

未来工作将聚焦于降低训练成本,探索更高效的奖励机制和模型压缩技术。同时,计划扩展多模态对抗训练,结合图像和文本信息,提升模型在多样化场景中的鲁棒性。此外,将研究如何结合人类专家反馈,进一步提升模型的安全性和可解释性,为实际部署提供更可靠的技术保障。

AI 总览摘要

在当今人工智能快速发展的背景下,确保大型语言模型(LLMs)的安全性和鲁棒性成为关键挑战。传统的红队(攻击者)与蓝队(防御者)训练方式多依赖静态数据集或手工设计的攻击策略,难以应对不断演变的攻击手段。为此,本文提出了AdvGRPO,一种基于Group Relative Policy Optimization(GRPO)的攻防联合训练框架,旨在通过强化学习实现模型的持续自我优化。

AdvGRPO的核心创新在于结合密集多通道奖励机制和解耦优势归一技术,有效解决了GRPO在对抗训练中的不稳定问题。训练流程设计为逐步课程,从单轮攻击逐步过渡到多轮闭环攻击,增强模型的响应适应能力。攻击者和防御者模型交替更新,形成动态对抗环境,促使双方不断优化策略。奖励机制包括攻击成功率、提示策略、推理思考和有用性指标,利用GPT-4.1作为判别器进行高质量评分,确保训练的稳定性和效果。

实验结果显示,AdvGRPO在多项安全基准测试中表现出色。攻击模型在Qwen2.5-14B上多轮攻击成功率超过90%,在推理模型如Qwen3.5-9B中单轮攻击成功率达70%以上,显著优于未训练模型。防御模型经过联合对抗训练后,在HarmBench、WildJailbreak等基准上将攻击成功率降低至不足1%,大幅提升安全性,同时保持了模型的知识和推理能力。这些结果验证了AdvGRPO在提升模型安全性方面的潜力。

该研究不仅丰富了强化学习在AI安全中的应用场景,也为未来自动化红蓝队对抗提供了理论基础和技术方案。通过引入多通道奖励和逐步课程训练,解决了现有方法中的不稳定问题,为构建更安全、更可信的AI系统提供了新的思路。未来,研究将致力于降低训练成本,扩展多模态对抗能力,并结合人类反馈,推动AI安全技术的实际落地。

深度解读

原文摘要

AI red teaming must continually adapt to evolving attackers and defenders. Reinforcement learning offers a promising approach to discovering novel attacks, and co-training methods can produce more robust defenders in tandem. Recent works have demonstrated the efficacy of attacker-defender co-training by applying PPO and DPO, but report that GRPO is unstable in this setting. We introduce AdvGRPO, a co-training framework that makes GRPO viable for joint attacker-defender optimization using dense multi-channel rewards and decoupled advantage normalization. Training progresses through a curriculum from single-turn to closed-loop multi-turn attacks before bootstrapping co-training, where attacker and defender models are updated in alternation. We show that our method can produce highly effective and transferable attacks and that co-trained defenders outperform baselines on safety benchmarks.

cs.CL cs.AI cs.LG