Constitutional Arms Races in the Public Goods Game: Co-Evolving LLM Constitutions Under Cooperation-Defection Pressure
基于LLM进化搜索的对抗性宪法演化,在公共物品博弈中实现蓝红阵营近0.78稳定均衡。
核心发现
方法论
本文提出了一种基于大型语言模型(LLM)引导的进化搜索框架,用于在多智能体对抗环境中共同进化自然语言形式的宪法规则。具体地,研究在公共物品博弈(PGG)和空间网格世界两种环境中,交替更新蓝色合作派与红色搭便车派的优先级排序的自然语言规则集,形成宪法军备竞赛。采用OpenEvolve结合MAP-Elites算法实现LLM变异操作,优化目标包括单方得分、得分差异和纯对抗得分。通过调整适应度函数耦合与评估种子数量,确保对抗压力的有效传递和搜索稳定性。
关键结果
- 在PGG中,蓝色合作派得分从0.370提升至0.777,红色搭便车派从0.177提升至0.782,30代后双方趋于约0.78的稳定近似均衡,且该结果在乘数m={1.2,1.5,2.0,3.0}范围内保持稳健。
- 独立评分环境下,蓝红阵营得分相关性极低(corr(S_B,S_R)=+0.088),导致无真实对抗压力。引入得分优势适应度S_own - S_opp后,恢复了对抗动态,促进了军备竞赛。
- 纯对抗适应度模式下,评估种子数K对模式退化影响显著:K=2时出现退化,K=5时保持30代强对抗专精,表明评估预算是控制适应度估计噪声的关键杠杆。
研究意义
本研究首次系统验证了自然语言宪法规则在多智能体对抗环境中的共进化可行性,突破了传统单智能体或合作假设的局限。通过引入适应度耦合机制和评估预算调控,揭示了对抗压力产生的关键条件,为多智能体对抗性治理规则设计提供了理论与实践基础。演化出的红色宪法作为可解释的红队测试用例,为未来合作机制的鲁棒性评估和安全性验证开辟新路径。
技术贡献
技术上,本文创新性地将LLM作为变异算子,结合OpenEvolve与MAP-Elites算法,实现了自然语言规则的优先级排序进化。提出并验证了适应度耦合(score-advantage fitness)作为对抗动力的必要条件,解决了独立评分导致的无效对抗问题。通过评估种子数调控,首次揭示了适应度估计噪声对纯对抗搜索模式退化的影响,丰富了LLM引导进化搜索的理论框架。
新颖性
本工作是首个系统研究LLM引导的自然语言宪法在多智能体对抗压力下的共进化,区别于以往仅限合作环境的研究。通过引入适应度耦合和评估预算调控,首次实现了稳定的宪法军备竞赛,且演化出的宪法规则具备高度可解释性和可迁移性,填补了多智能体对抗性宪法设计领域的空白。
局限性
- 适应度估计噪声依赖于评估种子数,低预算时纯对抗搜索易出现模式退化,限制了搜索效率和稳定性。
- 实验环境主要为PGG和特定网格世界,尚未涵盖更复杂或真实世界多智能体对抗场景,泛化能力待验证。
- 未进行对抗演化蓝色阵营与新红色阵营的迁移测试,无法断言对抗演化宪法优于合作演化宪法的鲁棒性。
未来方向
未来工作可扩展至更复杂多智能体环境,探索多方阵营及异质智能体的宪法共进化。提升LLM变异算子稳定性,结合更大评估预算以缓解适应度噪声影响。开展对抗演化宪法的迁移测试,验证其对新对手的鲁棒性和泛化能力,推动多智能体治理规则的安全性与适应性研究。
AI 总览摘要
多智能体系统中,尤其是基于大型语言模型(LLM)的智能体,常面临合作与背叛的复杂动态。传统的宪法AI方法多假设单智能体或合作环境,难以应对现实中智能体间的目标冲突和对抗行为。本文针对这一挑战,提出了一种基于LLM引导的进化搜索框架,实现蓝色合作派与红色搭便车派在公共物品博弈(PGG)和空间网格世界中的自然语言宪法规则共进化。该框架通过OpenEvolve与MAP-Elites算法,交替优化双方的优先级排序规则,模拟宪法军备竞赛。
核心技术在于设计适应度函数以确保对抗压力的有效传递。PGG环境天然耦合双方得分,促使双方在30代内趋于约0.78的稳定均衡,且该均衡对乘数参数m的变化表现出鲁棒性。相较之下,独立评分环境下双方得分相关性极低,无法产生真实对抗,需引入得分优势适应度(S_own - S_opp)以恢复对抗动态。此外,纯对抗适应度模式下,评估种子数K成为控制模式退化的关键因素,K=5时能维持稳定专精,反映评估预算对搜索稳定性的决定性作用。
实验还揭示了信息不对称对对抗均衡的影响:在网格世界中,红色阵营若能观察蓝色阵营行动日志,能显著提升其优势,体现现实中信息优势对策略演化的推动作用。防御性机制如攻击协调要求也被验证能有效抑制红色阵营的攻击能力,为机制设计提供了实用杠杆。
这项工作不仅验证了自然语言宪法在对抗多智能体环境中的共进化可行性,还提出了适应度耦合和评估预算调控作为实现稳定军备竞赛的关键机制。演化出的红色宪法规则作为可解释的红队测试用例,为未来合作机制的鲁棒性评估和安全性验证提供了新工具。该研究推动了多智能体宪法AI从单智能体合作向多智能体对抗的转型,拓展了宪法AI的应用边界。
尽管如此,研究仍存在适应度噪声、环境复杂度和迁移测试不足等限制。未来工作将聚焦于提升变异算子稳定性,扩展环境多样性,开展对抗演化宪法的泛化与鲁棒性验证,进一步推动多智能体治理规则的安全性与适应性研究。整体而言,该研究为多智能体对抗环境下的自然语言宪法设计提供了理论基础和实践路径,具有重要的学术价值和应用前景。
深度分析
研究背景
大型语言模型(LLM)近年来在自然语言处理领域取得突破,推动了智能体自治系统的发展。宪法AI通过人类编写的原则(如“有益且无害”)对LLM进行对齐,提升单智能体的安全性和可靠性。然而,现实多智能体环境中,智能体间存在复杂的合作与对抗关系,传统单智能体或合作假设的对齐方法难以应对。已有研究表明,LLM智能体在目标冲突下会出现敲诈、破坏和泄密等有害行为,暴露了现有对齐方法的局限性。Kumar等人(2023)提出基于LLM引导的进化搜索发现合作宪法规则,显著优于手工设计,但仅限于合作环境,缺乏对抗压力的考察。本文基于此背景,探索多智能体对抗环境下的宪法共进化,旨在揭示对抗压力产生机制及其对宪法演化的影响。
核心问题
核心问题是如何在多智能体对抗环境中设计和演化自然语言形式的宪法规则,使得智能体阵营在合作与背叛的压力下形成稳定且有效的治理机制。具体挑战包括:1)适应度函数是否真正诱导对抗压力,避免独立评分导致的无效对抗;2)LLM变异算子在对抗专精目标下的可靠性和稳定性;3)不同社会困境结构(如公共物品博弈与空间网格世界)下宪法演化的表现差异;4)如何通过评估预算控制适应度估计噪声,防止模式退化。解决这些问题对于推动多智能体对齐和治理规则设计具有重要意义。
核心创新
本研究的核心创新包括:
1)提出基于LLM引导的进化搜索框架,实现蓝红两阵营自然语言宪法规则的交替共进化,模拟宪法军备竞赛,突破传统单智能体或合作假设。
2)设计并验证适应度耦合机制(score-advantage fitness),解决独立评分导致的无效对抗问题,确保对抗压力有效传递。
3)揭示评估种子数K对纯对抗搜索模式稳定性的关键影响,首次将评估预算视为控制适应度估计噪声和防止模式退化的重要杠杆。
4)在PGG和空间网格世界两种结构迥异的环境中系统测试,验证方法的泛化性和环境结构对演化动力学的影响。
5)演化出的宪法规则具备高度可解释性,能够作为红队测试用例,促进未来合作机制的安全性验证。
方法详解
- �� 环境设置:采用两种环境——公共物品博弈(PGG)和空间网格世界。PGG中6个智能体分为3蓝3红,进行20轮贡献与惩罚决策,乘数m取{1.2,1.5,2.0,3.0}。网格世界中两阵营各3智能体,8×8格子,行动包括采集、移动、攻击等,阵营身份对智能体隐藏。
- �� 宪法表示:每阵营由优先级排序的自然语言规则集(宪法)控制,智能体决策时严格遵循规则。
- �� 进化框架:采用OpenEvolve结合MAP-Elites算法,LLM作为变异算子,交替更新蓝红阵营宪法,目标是最大化适应度函数。
- �� 适应度函数:三种模式——单方得分Sfaction,得分优势Sfaction - Sopp,纯对抗1 - Sopp。PGG天然耦合得分,无需修改;网格世界采用得分优势以确保对抗压力。
- �� 评估策略:多次随机种子评估(K=2或5),缓解适应度估计噪声,防止模式退化。
- �� 实验设计:30代迭代,分析得分轨迹、均衡状态、信息不对称及防御机制对演化结果的影响。
实验设计
实验分为PGG和网格世界两大类。PGG实验中,蓝色合作派初始得分0.370,红色搭便车派0.177,30代后双方均分约0.78,验证乘数m对均衡的影响,结果显示均衡稳健。纯对抗适应度下,红色阵营能有效抑制蓝色得分,体现对抗压力。网格世界实验首先发现独立评分导致无效对抗,采用得分优势适应度后,蓝色合作宪法C*展现结构性鲁棒性,红色阵营虽能缩小差距但未超越。引入攻击协调要求显著降低红色优势。信息不对称实验显示红色阵营观察蓝色行动日志时优势明显提升。纯对抗搜索中,评估种子数K=2时出现模式退化,K=5时稳定维持专精,揭示评估预算对搜索稳定性的关键作用。
结果分析
PGG中,蓝色合作派得分从0.370提升至0.777,红色搭便车派从0.177提升至0.782,30代后双方趋于稳定近似均衡0.78,且该均衡对乘数m的变化表现出鲁棒性。独立评分环境下,蓝红阵营得分相关性极低(corr=+0.088),无真实对抗压力,采用得分优势适应度后恢复对抗动态。纯对抗适应度模式下,评估种子数K显著影响模式稳定性,K=2时出现退化,K=5时保持30代强对抗专精。信息不对称实验中,红色阵营观察蓝色行动日志时最终得分优势达+0.415,体现信息优势对策略演化的推动作用。防御机制如攻击协调要求将红色优势从-0.27降至-0.66,显示机制设计的实用价值。
应用场景
本研究成果适用于多智能体系统中的治理规则设计,尤其是涉及合作与对抗的场景,如自动化经济体、分布式资源管理和安全红队测试。演化出的自然语言宪法规则具备高度可解释性,便于人类专家审查和调整,提升系统透明度和安全性。红色宪法作为红队测试用例,可用于评估未来合作机制的鲁棒性和防御能力,促进多智能体系统的安全部署与监管。
局限与展望
适应度估计噪声依赖于评估种子数,低预算时纯对抗搜索易出现模式退化,限制了搜索效率和稳定性。实验环境主要为PGG和特定网格世界,尚未涵盖更复杂或真实世界多智能体对抗场景,泛化能力待验证。未进行对抗演化蓝色阵营与新红色阵营的迁移测试,无法断言对抗演化宪法优于合作演化宪法的鲁棒性。
原文摘要
Frontier LLM agents engage in blackmail, sabotage, and document leaks under goal conflicts in agentic settings, exposing limitations of alignment methods built around single-agent or cooperative assumptions. Recent work shows LLM-guided evolutionary search can discover effective cooperative constitutions, but two properties of the adversarial setting remain uncharacterized: whether the fitness function actually induces adversarial pressure, and whether the LLM mutation operator behaves reliably under adversarial-specialist objectives. We study adversarial constitutional co-evolution (Blue cooperators vs. Red free-riders, 30 generations) across a Public Goods Game (PGG) and a spatial grid-world. Three findings: (1) in the PGG, both factions converge to a near-parity equilibrium at S approximately 0.78, robust across tested multipliers m in {1.2, 1.5, 2.0, 3.0}; (2) in independently scored environments, per-faction scoring leaves outcomes statistically uncoupled, with corr(S_B, S_R) = +0.088, and produces no adversarial pressure; a score-advantage fitness target S_own - S_opp restores it; (3) under pure-adversary fitness, evaluation seed count K controls mode regression: K = 2 regresses, while K = 5 sustains a strong specialist for all 30 generations. Adversarial co-evolution of natural-language constitutions is feasible, but only under coupled fitness and adequate evaluation budget; the evolved Red constitutions serve as interpretable red-team artifacts for testing future cooperative designs.
参考文献 (20)
Deep Learning Meets Mechanism Design: Key Results and Some Novel Applications
V. Sankar, Vishisht Srihari Rao, Mayank Ratan Bhardwaj 等
An Interpretable Automated Mechanism Design Framework with Large Language Models
Jiayuan Liu, Mingyu Guo, Vincent Conitzer
Evolving Interpretable Constitutions for Multi-Agent Coordination
Ujwal Kumar, A. Saito, Hershraj Niranjani 等
Dota 2 with Large Scale Deep Reinforcement Learning
Christopher Berner, Greg Brockman, Brooke Chan 等
Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning
Natasha Jaques, Angeliki Lazaridou, Edward Hughes 等
Agentic Misalignment: How LLMs Could Be Insider Threats
Aengus Lynch, Benjamin Wright, Caleb Larson 等
The Coming Crisis of Multi-Agent Misalignment: AI Alignment Must Be a Dynamic and Social Process
F. Carichon, Aditi Khandelwal, Marylou Fauchard 等
Volunteering as Red Queen Mechanism for Cooperation in Public Goods Games
C. Hauert, S. De Monte, J. Hofbauer 等
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Joel Z. Leibo, V. Zambaldi, Marc Lanctot 等
Mathematical discoveries from program search with large language models
B. Romera-Paredes, M. Barekatain, Alexander Novikov 等
Paired Open-Ended Trailblazer (POET): Endlessly Generating Increasingly Complex and Diverse Learning Environments and Their Solutions
Rui Wang, J. Lehman, J. Clune 等
The evolution of cooperation
R. May
Inequity aversion improves cooperation in intertemporal social dilemmas
Edward Hughes, Joel Z. Leibo, Matthew Phillips 等
Evolving AI Collectives to Enhance Human Diversity and Enable Self-Regulation
Shiyang Lai, Yujin Potter, Junsol Kim 等
Mastering the game of Go with deep neural networks and tree search
David Silver, Aja Huang, Chris J. Maddison 等
Human-centred mechanism design with Democratic AI
R. Koster, Jan Balaguer, Andrea Tacchetti 等
Generative Agents: Interactive Simulacra of Human Behavior
J. Park, Joseph O'Brien, Carrie J. Cai 等
Cooperation and Punishment in Public Goods Experiments
E. Fehr, S. Gächter