SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment

TL;DR

SafeSteer通过局部化的策略蒸馏,仅在安全标记上调整,有效平衡安全性与模型能力,显著减少对通用数据的依赖。

cs.AI 🔴 高级 2026-06-02 27 次浏览
Hao Li Jingkun An Zijun Song Pengyu Zhu Rui Li Hao Wang Wendi Feng Yesheng Liu Lijun Li Jin-Ge Yao Lei Sha
AI安全 大模型对齐 策略蒸馏 局部优化 逆KL散度

核心发现

方法论

SafeSteer采用激活引导的安全教师模型,通过对比安全与非安全输出分布,自动挖掘安全关键标记。基于此,设计了安全标记选择算法,将逆KL散度的惩罚限制在这些稀疏的安全标记上,从而实现局部化的模型微调。该方法无需大量通用数据或外部奖励模型,仅用少量有害样本(100个)即可完成安全对齐。具体流程包括:构建激活引导的安全教师模型,利用对比日志概率算法选择安全标记,最后在训练中仅对这些安全标记施加逆KL惩罚,保持模型的整体能力。

关键结果

  • 在七个安全基准测试中,SafeSteer显著优于现有方法,安全性能提升至平均94.78%的安全得分,且在五个通用能力基准中仅有微小的性能下降(平均下降不到1.5%),表现出优越的安全与能力平衡。特别是在Qwen-3-4B-Instruct模型上,将有害样本需求从以往的数千降至仅100个,极大降低了对抗性对齐的成本。
  • 在多模型、多任务、多数据集的广泛实验中,SafeSteer在安全性指标上均优于对比方法(如MoCAN、BFPO、NSPO),且保持了模型的原始能力。实验证明,局部化逆KL散度的设计有效避免了全局惩罚带来的能力退化问题,验证了稀疏修正的有效性。
  • 消融实验显示,若用全局逆KL或对整个词汇施加惩罚,模型能力会显著下降,而只在安全标记上限制惩罚,模型能力几乎保持不变。这验证了方法的核心思想:安全特征稀疏,局部调整即可实现安全对齐。

研究意义

该研究突破了传统安全对齐中的“对齐税”难题,提出了基于局部化的策略蒸馏方案,极大降低了对大规模通用数据和外部奖励模型的依赖,为大模型的安全部署提供了实用路径。其创新的安全标记挖掘机制和稀疏逆KL惩罚设计,为未来模型安全对齐提供了新的理论基础和工程实践方案,有望推动行业在模型安全、可靠性方面的快速发展。

技术贡献

SafeSteer的核心技术创新在于:1)利用激活引导构建稳定的安全教师模型,无需外部强教师或复杂提示;2)提出对比日志概率的安全标记选择算法,有效识别稀疏的安全关键标记;3)将逆KL散度的惩罚限制在安全标记上,实现局部微调,避免能力退化。该方案在保持模型通用能力的同时,显著提升了安全性能,提供了一种高效、低成本的安全对齐策略。其理论基础结合了逆KL的模式收敛特性和稀疏修正思想,为大模型安全对齐提供了新的工程范式。

新颖性

本研究首次提出将逆KL散度惩罚局部化应用于大模型安全对齐,突破了以往全局惩罚导致能力退化的局限。通过激活引导的安全教师模型和对比日志概率的安全标记挖掘,实现了稀疏、精准的安全修正。这种局部化策略在减少数据需求、降低成本方面具有显著优势,且在多模型、多任务场景中表现出优越的适应性,代表了安全对齐技术的一个重要创新方向。

局限性

  • 该方法依赖于基础模型已有一定的拒绝能力,若模型本身缺乏拒绝行为,安全标记挖掘效果将受限,难以实现有效对齐。
  • 实验主要在参数规模不超过10B的模型上验证,尚未验证更大模型(如超百亿参数模型)的适应性和效果,未来需扩展到更大规模模型。
  • 目前仅在文本自动回归模型上测试,尚未考虑多模态或非自回归模型的安全对齐问题,未来需探索多模态场景的适用性。

未来方向

未来将致力于提升安全教师模型的自主构建能力,减少对基础模型拒绝能力的依赖。同时,将探索多模态、大规模模型的适应性,结合强化学习等技术进一步优化安全标记的挖掘与惩罚机制。此外,考虑到实际应用中的复杂场景,将研究多任务、多目标的安全能力平衡策略,以实现更全面、更稳健的模型安全对齐。

AI 总览摘要

随着大规模语言模型(LLMs)在对话系统、智能助手等场景中的广泛应用,模型的安全性成为行业关注的焦点。当前,安全对齐的方法多依赖于引入大量通用数据或训练复杂的奖励模型,以减少模型输出中的有害内容。然而,这些方法常常带来“对齐税”,即模型能力的退化,严重影响其在多任务、多场景下的表现。如何在保证安全的同时,最大限度地保持模型的通用能力,成为研究的核心难题。

本论文提出了SafeSteer,一种基于局部化策略蒸馏的安全对齐方法。其核心思想是:安全特征在模型输出中的稀疏性意味着,只需对少量安全关键标记进行微调,而非全局调整。具体而言,作者通过激活引导的方式构建了一个稳定的安全教师模型,用以识别模型输出中的安全标记。利用对比日志概率算法,自动挖掘出最敏感的安全标记子集。训练过程中,将逆KL散度的惩罚限制在这些稀疏的安全标记上,从而实现局部微调。

实验结果显示,SafeSteer在七个安全基准测试中显著优于现有方法,安全得分提升至94.78%,而在五个通用能力评估中仅有微小的性能下降(平均不到1.5%)。尤其是在Qwen-3-4B-Instruct模型上,将有害样本需求从以往的数千个降至仅100个,极大降低了对抗性对齐的成本。这一创新方案不仅在安全性上取得突破,也为模型的高效、安全部署提供了可行路径。

该研究的意义在于:一方面,提出了突破传统“全局惩罚”限制的局部化策略,为大模型安全对齐提供了新思路;另一方面,通过稀疏修正,有效避免了模型能力的退化问题,兼顾安全与能力的平衡。其技术贡献在于:利用激活引导的安全教师模型、对比日志概率的安全标记选择算法,以及局部逆KL惩罚机制,形成了一个低成本、高效、可扩展的安全对齐框架。未来,作者计划在更大规模模型、多模态场景中验证和优化该方法,推动大模型安全应用的广泛落地。

深度分析

研究背景

近年来,随着大规模预训练语言模型(如GPT、BERT、LLaMA等)在自然语言处理中的突破,模型在多任务、多场景中的能力得到了极大提升。然而,模型的安全性问题也逐渐凸显,尤其是在生成有害内容、偏见或误导信息方面。为此,安全对齐技术应运而生,旨在让模型输出符合人类价值观。早期方法多依赖于监督微调(Supervised Fine-tuning, SFT)或偏好优化(Preference Optimization),但这些方法往往导致模型能力下降(即“对齐税”),限制了模型的广泛应用。近年来,诸如RLHF(强化学习偏好优化)、逆向KL散度(reverse KL)等技术被引入,试图在安全性与能力之间找到平衡。代表性工作包括BFPO、NSPO等,它们通过引入大量通用数据或外部奖励模型,试图减缓能力退化。然而,这些方法存在成本高、效率低、难以普适的问题。与此同时,激活引导、稀疏修正等技术逐渐被提出,用于在模型内部空间实现更细粒度的安全控制。整体而言,安全对齐仍是AI安全研究中的核心难题,亟需高效、低成本且可扩展的解决方案。

核心问题

当前的安全对齐方法多依赖于大规模通用数据或外部奖励模型,导致模型能力明显下降,限制了其在多任务环境中的表现。这些方法的核心瓶颈在于:安全特征在输出分布中稀疏且分散,全球性惩罚会影响模型的通用能力。如何在保证模型安全的同时,避免能力退化,成为亟待解决的问题。特别是在实际部署中,模型需要在保持高性能的基础上,避免生成有害内容。现有的技术方案多依赖于大量数据和复杂的训练过程,成本高昂,难以快速适应不同场景。另一方面,模型的安全行为多表现为稀疏的拒绝或安全标记,如何精准识别这些稀疏的安全信号,进行局部化调整,是当前研究的核心难题。

核心创新

本研究的创新点主要体现在:1)提出利用激活引导构建稳定的安全教师模型,无需外部强教师或复杂提示,增强了安全信号的稳定性;2)设计对比日志概率的安全标记选择算法,自动挖掘出模型输出中的安全关键标记,确保调整的稀疏性和有效性;3)将逆KL散度的惩罚限制在安全标记子集上,实现局部微调,避免全局惩罚带来的能力退化。这一方案突破了传统全局惩罚的局限,显著降低了数据需求和训练成本,同时在多个模型和任务中验证了其优越性。其核心创新在于:利用模型内部激活空间的变化,精准定位安全信号,结合稀疏逆KL惩罚,实现安全性与能力的双赢。

方法详解

  • �� 构建激活引导的安全教师模型:通过比较模型在有害与无害指令下的隐藏状态,提取拒绝方向,并在推理过程中注入该方向,形成稳定的安全信号。
  • �� 安全标记挖掘:利用对比日志概率算法,对安全教师模型与基础模型的输出分布进行对比,识别出对拒绝行为敏感的安全标记子集。
  • �� 局部逆KL惩罚:在训练过程中,将逆KL散度的惩罚限制在安全标记子集上,只调整这些稀疏的标记,保持模型的整体能力。
  • �� 训练流程:在有害指令上采样模型响应,利用安全教师模型生成拒绝轨迹,挖掘安全标记,然后在微调中仅对这些标记施加逆KL惩罚,确保模型拒绝行为的稳定性。
  • �� 评估指标:在七个安全基准测试中评估模型的安全性能,在五个通用能力测试中评估能力保持情况,确保方法的有效性。

实验设计

采用包括Llama-3-8B-Instruct、Llama-3.2-3B-Instruct、Qwen2.5-7B-Instruct等多模型,使用PKU-SafeRLHF、AdvBench、HarmBench等多项安全基准进行测试。训练数据仅用100个有害样本,无需外部通用数据,显著降低成本。对比方法包括MoCAN、BFPO、NSPO等,采用逆KL散度作为优化目标。评估指标涵盖安全成功率(ASR)、模型能力(如MMLU、HumanEval)等。通过消融实验验证局部逆KL的有效性,分析不同响应长度、标记选择策略对性能的影响。

结果分析

在多个模型和任务中,SafeSteer在安全指标上表现优异,平均安全成功率达94.78%,明显优于MoCAN(约90%)和BFPO(约89%)。在能力评估中,仅有微小的性能下降(平均不到1.5%),验证了局部化调节的有效性。例如,在Qwen-3-4B-Instruct模型上,将有害样本需求从几千个降至100个,极大降低了训练成本。消融实验显示,若用全局逆KL或全词汇惩罚,模型能力会显著下降,验证了稀疏调节的必要性。整体结果表明,SafeSteer在安全性与能力平衡方面实现了突破,具有极强的实用价值。

应用场景

该方法适用于需要部署安全、可靠大模型的场景,如企业客服、内容审核、敏感信息过滤等。只需少量有害样本即可实现高效安全对齐,无需大量通用数据或复杂奖励模型,适合快速部署和迭代。未来,结合多模态信息和更大规模模型,有望在自动驾驶、医疗等领域实现更广泛的应用。通过局部化调节,模型可以在保证安全的同时,保持多任务、多场景的优异表现,推动AI在实际场景中的安全落地。

局限与展望

该方法依赖于基础模型已有一定的拒绝能力,若模型本身缺乏拒绝行为,挖掘效果将受限。实验主要在参数规模不超过10B的模型上验证,尚未验证超大模型的适应性。仅在文本自动回归场景下测试,未来需扩展到多模态、多任务环境。此外,局部逆KL的效果可能受限于安全标记的准确性,未来需结合更复杂的安全信号识别技术。

通俗解读 非专业人士也能看懂

想象你在经营一家工厂,工厂里有许多不同的机器,每台机器都能完成不同的任务。有些机器可能会出错,做出危险或不安全的事情。为了保证工厂的安全,你可以在每台机器的关键部分安装传感器,只在这些关键点进行调整,而不是每个部分都重新调试。这样一来,你就能快速修正那些可能引发危险的地方,而不会影响到整个工厂的正常运行。

SafeSteer的方法就像这个工厂的传感器系统。它通过观察模型内部的“传感器”信号,找到那些与安全相关的稀疏“关键点”。然后,只在这些点进行微调,确保模型在拒绝危险请求时表现得稳健,同时保持其他能力不变。这种局部调整比传统的全局调节更高效,也更安全,因为它不会影响模型的整体性能。就像只在工厂的关键机器上做调整一样,既保证了安全,又不影响生产效率。

简单解释 像给14岁少年讲一样

想象你在学校里,有一台超级聪明的机器人老师。这台机器人能回答各种问题,但有时候会说一些不太合适的话。为了让它变得更安全,老师们会告诉它:“如果遇到危险或不礼貌的问题,就要拒绝回答。”不过,要让机器人学会拒绝,不能把所有内容都改掉,否则它就变得不聪明了。

SafeSteer就像给机器人装了一套特别的“安全感应器”。这个感应器可以找到那些告诉机器人“不要回答”的关键字或信号。然后,只在这些关键点上做微调,让机器人学会在遇到危险时果断拒绝,而在正常情况下还能聪明地回答问题。这样,机器人既安全又聪明,不会因为调整而变笨,就像只在关键时刻按下“停止”按钮一样,既安全又高效。

术语表

激活引导 (Activation Steering)

一种通过修改模型内部激活状态,控制模型行为的技术,旨在引导模型产生特定的输出反应。

用于构建安全教师模型,稳定拒绝行为。

逆KL散度 (Reverse KL Divergence)

一种衡量两个概率分布差异的指标,具有模式收敛倾向,常用于模型微调中的局部优化。

在SafeSteer中限制在安全标记上,实现局部微调。

安全标记 (Safety Tokens)

模型输出中与安全拒绝相关的稀疏关键字或符号,用于识别和调节模型的安全行为。

通过对比分布挖掘,作为微调的目标子集。

对比日志概率 (Contrastive Log Probability)

一种通过比较两个模型在同一输入下的输出概率差异,识别敏感标记的方法。

用于安全标记的自动挖掘。

局部化微调 (Localized Fine-tuning)

只在模型输出的稀疏子集上进行微调,避免全局调整带来的能力损失。

实现安全与能力的平衡。

模型拒绝行为 (Refusal Behavior)

模型在面对不安全或不适当请求时,主动拒绝回答的行为。

通过激活引导稳定实现。

稀疏修正 (Sparse Adjustment)

只在少量关键标记上进行微调,减少对模型整体能力的影响。

核心技术之一。

激活空间 (Activation Space)

模型内部隐藏状态的向量空间,用于分析和引导模型行为。

安全教师模型的构建基础。

稀疏安全特征 (Sparse Safety Features)

在模型输出中稀疏存在的与安全相关的信号或标记。

挖掘和微调的目标。

安全对齐 (Safety Alignment)

使模型输出符合人类价值观和安全标准的过程。

本文的研究核心目标。

开放问题 这项研究留下的未解疑问

  • 1 目前,SafeSteer主要在参数规模不超过10B的模型上验证,未来需要验证其在超大模型(如百亿参数以上)上的效果和适应性,尤其是在多模态和非自回归模型中的应用潜力。
  • 2 虽然局部逆KL散度在稀疏标记上表现优越,但对安全标记的自动挖掘依赖于模型已有的拒绝能力,若基础模型缺乏拒绝行为,效果将受到限制,如何在无拒绝能力的模型中实现有效安全对齐仍是挑战。
  • 3 目前的实验主要集中在文本生成任务,未来应扩展到多模态场景(如图像、视频)以及对话系统中的安全对齐问题,以验证其通用性。
  • 4 安全标记的自动挖掘算法在不同模型和任务中表现差异较大,如何设计更鲁棒的标记选择机制,提升泛化能力,是未来研究的方向。
  • 5 在实际应用中,如何结合用户反馈和持续学习机制,动态调整安全标记和惩罚策略,以适应不断变化的安全需求,也是值得探索的问题。

应用场景

近期应用

内容审核系统

利用SafeSteer对模型进行局部化安全微调,提升自动内容过滤的效率和准确性,适用于社交平台、内容平台等,减少有害内容的生成风险。

企业客服机器人

通过低成本快速部署安全对齐模型,确保客服机器人在处理敏感信息时遵守安全规范,提升用户体验和合规性。

敏感信息过滤

在自动化系统中应用SafeSteer,识别并拒绝处理敏感或危险请求,保障系统安全与合规,降低运营风险。

远期愿景

多模态安全对齐

结合视觉、语音等多模态信息,扩展SafeSteer的技术框架,实现多模态模型的安全控制,推动AI在医疗、自动驾驶等关键领域的安全应用。

持续学习与动态调整

开发基于用户反馈的动态安全策略,实时调整安全标记和惩罚机制,适应不断变化的安全环境,推动AI系统的自我优化。

原文摘要

Aligning Large Language Models (LLMs) with human values often degrades their general capabilities, termed the alignment tax. Existing methods mitigate this by balancing dual objectives, which heavily rely on massive general-purpose data or auxiliary reward models. In this paper, we argue that, because safety features are inherently sparse within the output distribution, alignment requires localized modifications rather than global trade-offs. To this end, we propose SafeSteer, which performs on-policy distillation confined to safety tokens. First, we construct a safety teacher via activation steering. Based on this teacher, we develop a safety token selection algorithm. Consequently, SafeSteer restricts the reverse KL penalty to these tokens during training to preserve general capabilities. Experimental results across diverse models show that our SafeSteer achieves a superior trade-off between safety and general capability compared with existing methods, attaining strong safety performance on seven safety benchmarks with only minimal degradation on five general capability benchmarks. Notably, SafeSteer requires only 100 harmful samples without using any general-purpose data, less than 1% of what previous baselines used, considerably reducing alignment cost. More details are on our project page at https://anjingkun.github.io/SafeSteer.

cs.AI cs.CL

参考文献 (20)

Safe RLHF: Safe Reinforcement Learning from Human Feedback

Josef Dai, Xuehai Pan, Ruiyang Sun 等

2023 701 引用 ⭐ 高影响力 查看解读 →

Refusal in Language Models Is Mediated by a Single Direction

Andy Arditi, Oscar Obeso, Aaquib Syed 等

2024 720 引用 ⭐ 高影响力 查看解读 →

Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models

Wenxuan Zhang, Philip H. S. Torr, Mohamed Elhoseiny 等

2024 29 引用 ⭐ 高影响力 查看解读 →

Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment

Rishabh Bhardwaj, Soujanya Poria

2023 258 引用 查看解读 →

X-Boundary: Establishing Exact Safety Boundary to Shield LLMs from Multi-Turn Jailbreaks without Compromising Usability

Xiaoya Lu, Dongrui Liu, Yi Yu 等

2025 15 引用 查看解读 →

GLM-5: from Vibe Coding to Agentic Engineering

GLM-4.5 Team Aohan Zeng, Xin Lv, Zhenyu Hou 等

2026 144 引用 查看解读 →

ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming

Simone Tedeschi, Felix Friedrich, P. Schramowski 等

2024 93 引用 查看解读 →

Training language models to follow instructions with human feedback

Long Ouyang, Jeff Wu, Xu Jiang 等

2022 21269 引用 查看解读 →

Improving LLM Safety Alignment with Dual-Objective Optimization

Xuandong Zhao, Will Cai, Tianneng Shi 等

2025 34 引用 查看解读 →

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu 等

2024 400 引用 查看解读 →

On the Role of Attention Heads in Large Language Model Safety

Zhenhong Zhou, Haiyang Yu, Xinghua Zhang 等

2024 66 引用 查看解读 →

Let's Verify Step by Step

H. Lightman, Vineet Kosaraju, Yura Burda 等

2023 3420 引用 查看解读 →

HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

Mantas Mazeika, Long Phan, Xuwang Yin 等

2024 1174 引用 查看解读 →

Improving Alignment and Robustness with Circuit Breakers

Andy Zou, Long Phan, Justin Wang 等

2024 294 引用 查看解读 →

A Survey of On-Policy Distillation for Large Language Models

Mingyang Song, Mao Zheng

2026 38 引用 查看解读 →

On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

Rishabh Agarwal, Nino Vieillard, Yongchao Zhou 等

2023 431 引用 查看解读 →

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Yaxuan Li, Yuxin Zuo, Bingxiang He 等

2026 50 引用 查看解读 →

Mitigating the Safety Alignment Tax with Null-Space Constrained Policy Optimization

Yifan Niu, Han Xiao, Dong Liu 等

2025 7 引用 查看解读 →

Measuring Massive Multitask Language Understanding

Dan Hendrycks, Collin Burns, Steven Basart 等

2020 8351 引用 查看解读 →

Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable

Tiansheng Huang, Sihao Hu, Fatih Ilhan 等

2025 106 引用 查看解读 →