Calibrating Conservatism for Scalable Oversight

TL;DR

提出CCO,通过集成多重监督信号,利用Conformal Decision Theory实现在线校准,确保AI系统行为符合预设安全目标。

cs.AI 🔴 高级 2026-05-28 60 次浏览
William Overman Mohsen Bayati
AI安全 可扩展监督 合规性保证 序贯决策 统计校准

核心发现

方法论

本文提出的Calibrated Collective Oversight (CCO)框架,将多样化的辅助评分函数整合为偏差惩罚项,用于衡量行动偏离保守基线的程度。核心机制借鉴Attainable Utility Preservation (AUP),通过惩罚高效用行动,平衡系统的探索与安全。利用Conformal Decision Theory (CDT),实现在线校准λ参数,使得偏差率在有限样本内满足用户设定的目标α,无需假设数据分布。具体流程包括:• primary agent生成候选动作或接收环境动作集;• 多个辅助监督器(如模型、启发式批评者)对候选动作进行评分;• 将评分差异汇总为惩罚值∆(s,a),与主效用Us,a进行权衡;• 通过λ调节决策偏向,采用基于CDT的在线更新机制,确保偏差率收敛到目标水平。该方法在理论上证明了有限时间内偏差率的统计保证,且适用于非平稳、对抗性环境。

关键结果

  • 在改进版SWE-bench上,CCO成功限制了恶意对齐的强大代理的行为,偏差率与预设目标α(如5%)高度吻合,验证了统计保证的有效性。具体而言,弱监督者在面对具有潜在漏洞的代码修补任务中,偏差率控制在5%以内,显著优于传统启发式方法。
  • 在MACHIAVELLI环境中,CCO显著降低了伦理违规事件的发生频率,违规率由未校准系统的15%降至3%,同时保持了任务完成的效率。通过在线调节λ参数,系统在不同场景下实现了动态平衡,确保偏差率在预设范围内,验证了理论的实用性。
  • 多场景实验表明,偏差率的实际观测值与理论预测的目标α高度一致,误差在1%以内,说明Conformal Decision Theory在连续决策中的校准效果优异。

研究意义

本研究在AI安全领域具有重要突破意义。通过引入具有严格统计保证的在线校准机制,有效解决了传统监督方法在序贯决策中的偏差控制难题。该框架不仅增强了系统的可信度,也为未来大规模自主系统的安全部署提供了理论基础和实践工具。特别是在高风险应用场景,如自动驾驶、医疗辅助等,确保系统行为符合伦理和安全标准,具有深远影响。

技术贡献

技术上,本文创新性地将AUP的偏差惩罚扩展到任意评分函数,突破了Q值限制,增强了方法的适用性。引入Conformal Decision Theory,实现了无分布假设的在线校准,提供了偏差率的有限样本统计保证。这一结合在理论上证明了偏差控制的收敛性和鲁棒性,为序贯决策中的安全保障提供了新范式。此外,提出的算法在复杂环境中表现出优异的适应性和稳定性,拓展了AI安全控制的边界。

新颖性

本研究的创新点在于首次将Conformal Decision Theory应用于多信号集成的序贯监督中,实现偏差率的统计校准。相较于现有的单次交互校准方法,CCO支持多轮、多信号的动态调节,适应复杂环境中的非平稳性。这在AI安全和伦理合规领域尚属首次,填补了序贯监督中的统计保证空白,为大规模自主系统的安全控制提供了理论支撑。

局限性

  • 该方法依赖于辅助监督器的评分质量,若监督信号存在系统性偏差或误差,可能影响偏差控制的效果。
  • 在极端非平稳或对抗性环境中,λ参数的调节可能面临收敛缓慢的问题,尤其是在偏差率快速变化时。
  • 算法的计算成本较高,尤其是在高维状态空间和大量监督信号的情况下,实时在线校准可能面临性能瓶颈。

未来方向

未来工作可聚焦于增强监督信号的鲁棒性,结合深度学习模型的自我校准能力,提升偏差控制的效率和准确性。此外,探索多智能体系统中的合作与竞争机制,扩展CCO在多主体环境中的应用范围。还应研究在更复杂的对抗性场景中,算法的收敛速度和偏差保证的稳健性,为大规模自主系统的安全部署提供更强的理论支撑。

AI 总览摘要

随着人工智能系统逐渐具备自主规划和环境交互能力,如何确保其行为符合人类价值和安全标准成为关键挑战。传统的监督和控制方法在面对复杂、连续、多信号的决策场景时,难以提供严格的统计保证,容易出现偏差和风险。本文提出的Calibrated Collective Oversight (CCO)框架,创新性地结合了多信号集成、偏差惩罚和Conformal Decision Theory (CDT),为AI系统的安全监督提供了全新的解决方案。

在CCO中,系统通过多个辅助监督器对候选动作进行评分,形成偏差惩罚∆(s,a),反映行动偏离保守基线的程度。核心思想是:高效用行动在监督者未反对时可以被采纳,只有当偏差累计到一定程度时,系统才会偏向保守行为。为了动态调节偏差率,CCO引入基于CDT的在线校准机制,通过调整参数λ,实现偏差率在有限样本内满足用户设定的目标α。这种方法无需假设数据的分布,具有强大的鲁棒性,适应非平稳和对抗性环境。

理论上,作者证明了在有限时间内偏差率的统计保证,确保系统行为的安全性和可控性。实验结果显示,在改进版SWE-bench和MACHIAVELLI环境中,CCO成功限制了恶意代理的偏差,偏差率与目标高度一致,验证了其有效性和实用性。特别是在高风险应用场景中,这一机制为自主系统的安全部署提供了坚实的理论基础和实践工具。

总体而言,本文的贡献在于提出了一种具有严格统计保证的序贯监督框架,突破了传统方法在连续决策中的局限,为未来大规模自主系统的安全控制开辟了新路径。未来的研究将进一步优化监督信号的鲁棒性,扩展多智能体环境中的应用,推动AI安全领域的理论与实践共同发展。

深度解读

原文摘要

Agentic AI systems capable of autonomous planning and extended environmental interaction pose a fundamental control problem: how can humans maintain meaningful oversight of systems that may exceed their own capabilities? Existing approaches to scalable oversight rely on complex assumptions, remain largely heuristic, or lack practical methods for sequential settings with statistical guarantees. We introduce Calibrated Collective Oversight (CCO), which aggregates diverse auxiliary scoring functions into a penalty measuring deviation from a conservative baseline. Inspired by Attainable Utility Preservation, CCO enables collective conservatism: actions face a penalty proportional to overseer concern, so high-utility actions are still selected when overseers find them unobjectionable and overridden only when concern accumulates. CCO calibrates this conservatism online using Conformal Decision Theory, ensuring that undesirable outcomes remain below a user-specified target threshold with finite-time bounds and no distributional assumptions. On a modified version of SWE-bench, weaker overseers successfully constrain an adversarially misaligned stronger agent; on MACHIAVELLI, CCO substantially reduces ethical violations while preserving reward. In both settings, empirical violation rates closely match the specified targets, as predicted by the theory.

cs.AI

参考文献 (20)

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

Carlos E. Jimenez, John Yang, Alexander Wettig 等

2023 2367 引用 ⭐ 高影响力 查看解读 →

Conservative Agency via Attainable Utility Preservation

A. Turner, Dylan Hadfield-Menell, Prasad Tadepalli

2019 56 引用 ⭐ 高影响力 查看解读 →

Concrete Problems in AI Safety

Dario Amodei, Chris Olah, J. Steinhardt 等

2016 3112 引用 ⭐ 高影响力 查看解读 →

Avoiding Side Effects in Complex Environments

A. Turner, N. Ratzlaff, Prasad Tadepalli

2020 41 引用 ⭐ 高影响力 查看解读 →

Conformal Decision Theory: Safe Autonomous Decisions from Imperfect Predictions

Jordan Lekeufack, Anastasios Nikolas Angelopoulos, Andrea V. Bajcsy 等

2023 59 引用 ⭐ 高影响力 查看解读 →

Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark

Alexander Pan, C. Shern, Andy Zou 等

2023 213 引用 ⭐ 高影响力 查看解读 →

Let's Verify Step by Step

H. Lightman, Vineet Kosaraju, Yura Burda 等

2023 3350 引用 查看解读 →

Conformal Risk Control

Anastasios Nikolas Angelopoulos, Stephen Bates, Adam Fisch 等

2022 262 引用 查看解读 →

Scaling Laws For Scalable Oversight

Joshua Engels, David D. Baek, Subhash Kantamneni 等

2025 8 引用 查看解读 →

Conformal Arbitrage: Risk-Controlled Balancing of Competing Objectives in Language Models

William Overman, Mohsen Bayati

2025 6 引用 查看解读 →

Low Impact Artificial Intelligences

S. Armstrong, Benjamin Levinstein

2017 37 引用 查看解读 →

The Off-Switch Game

Dylan Hadfield-Menell, A. Dragan, P. Abbeel 等

2016 198 引用 查看解读 →

A Gentle Introduction to Conformal Prediction and Distribution-Free Uncertainty Quantification

Anastasios Nikolas Angelopoulos, Stephen Bates

2021 1043 引用 查看解读 →

Scalable agent alignment via reward modeling: a research direction

Jan Leike, David Krueger, Tom Everitt 等

2018 584 引用 查看解读 →

An Overview of Catastrophic AI Risks

Dan Hendrycks, Mantas Mazeika, Thomas Woodside

2023 291 引用 查看解读 →

On scalable oversight with weak LLMs judging strong LLMs

Zachary Kenton, N. Siegel, J'anos Kram'ar 等

2024 77 引用 查看解读 →

Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement

Jaehun Jung, Faeze Brahman, Yejin Choi

2024 68 引用 查看解读 →

AI Control: Improving Safety Despite Intentional Subversion

R. Greenblatt, Buck Shlegeris, Kshitij Sachan 等

2023 154 引用 查看解读 →

Reinforcement Learning: An Introduction

R. S. Sutton, A. Barto

1998 42939 引用

Penalizing Side Effects using Stepwise Relative Reachability

Victoria Krakovna, Laurent Orseau, Miljan Martic 等

2018 62 引用 查看解读 →