Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders

TL;DR

SAERL框架利用稀疏自编码器内在激活,提升LLM后训练数据多样性、难度排序与质量过滤,Qwen2.5-Math-1.5B准确率提升3%。

cs.LG 🔴 高级 2026-05-27 169 次浏览
Yi Jing Zao Dai Jinwu Hu Zijun Yao Lei Hou Juanzi Li Xiaozhi Wang
大规模语言模型 强化学习 数据工程 稀疏自编码器 课程学习 模型可解释性

核心发现

方法论

本文提出SAERL框架,基于稀疏自编码器(Sparse Autoencoder, SAE)从大规模语言模型(LLM)内部激活中提取三种数据内在属性:多样性、难度和质量。具体包括:1)利用SAE空间聚类结合适度批次混合控制训练批次多样性,保证梯度方向的局部一致性与跨簇覆盖;2)通过ElasticNet回归器基于SAE激活预测样本难度,构建簇内由易到难的课程排序;3)训练线性分类器对SAE激活进行质量探测,过滤噪声数据。该框架在数学推理任务上,结合GRPO和DAPO强化学习算法,显著提升训练效率和准确率,且单一SAE模型可跨模型规模和家族迁移使用,展现出轻量且可复用的数据工程能力。

关键结果

  • 在Qwen2.5-Math-1.5B模型上,SAERL相较于基础GRPO算法,平均准确率提升3.00%,且达到目标准确率所需训练步数减少20%。
  • 跨模型规模(1.5B与7B)和强化学习算法(GRPO与DAPO)均表现出一致的性能提升,证明SAE激活的普适性和迁移能力。
  • 消融实验显示,难度排序、适度批次混合和簇内分组均对最终性能有显著贡献,且适度混合批次实现了多样性与梯度一致性的最佳平衡。

研究意义

本研究首次系统地将LLM模型内部激活作为后训练数据工程的核心信号,突破了传统依赖外部反馈(如人类偏好、验证器结果等)的局限。通过稀疏自编码器提取的细粒度激活特征,能够精准刻画数据的多样性、难度和质量,提升强化学习训练的效率和效果。这一方法为大规模模型后训练阶段的数据选择和排序提供了新的理论与实践路径,推动了模型可解释性与数据驱动训练的深度融合,对学术界理解模型内部机制及工业界优化模型训练流程均有重要意义。

技术贡献

技术上,本文创新性地将稀疏自编码器应用于LLM后训练数据工程,提出了基于SAE激活的三维数据属性建模框架。与现有基于外部标签或粗粒度隐藏状态的方法相比,SAERL利用稀疏且解耦的特征激活,实现了更细致和可解释的数据筛选和排序。提出的适度批次混合策略在保持梯度一致性的同时提升了训练数据覆盖度,优化了训练动态。此外,单一SAE模型跨模型规模迁移验证了其轻量且高效的工程价值,拓展了模型内部信号在强化学习数据工程中的应用边界。

新颖性

本工作首次将稀疏自编码器提取的细粒度模型内部激活系统性地用于强化学习后训练数据工程,突破了以往依赖外部反馈信号的范式。其核心创新在于将多样性、难度和质量三种内在数据属性映射到具体的数据工程操作(批次构建、课程排序、数据过滤),并验证了该方法在不同模型规模和算法上的广泛适用性,展示了模型内部信号作为训练信号的新潜力。

局限性

  • 本研究聚焦于数学推理领域,依赖可验证奖励信号,尚未验证该方法在代码生成、通用指令跟随等其他后训练任务中的适用性和效果。
  • 难度代理和质量探测均依赖有限的标注数据或源分布标签,尚未实现完全无监督的数据属性建模,限制了方法的通用性和自动化程度。
  • 理论上尚未建立SAE空间距离与训练动态之间的因果关系,缺乏对模型优化过程的严格数学保证。

未来方向

未来工作可探索SAE激活在更广泛后训练任务(如代码、代理决策、多模态)中的迁移能力,尝试弱监督或无监督的难度和质量估计方法,减少对标注依赖。同时,结合梯度信息深入理论分析SAE空间与训练动态的关系,进一步提升数据工程的理论基础和实用效果。

AI 总览摘要

大规模语言模型(LLM)在后训练阶段,尤其是强化学习(RL)中,数据工程策略对模型性能和训练效率起着关键作用。传统方法多依赖外部反馈信号,如人类偏好、验证器结果或模型回滚表现,忽视了模型内部激活中蕴含的丰富信息。本文提出SAERL框架,创新性地利用稀疏自编码器(SAE)从LLM内部激活中提取细粒度特征,刻画训练数据的多样性、难度和质量三大内在属性,指导后训练数据的批次构建、课程排序和数据过滤。

SAERL首先通过SAE空间聚类实现批次多样性控制,采用适度的批次混合策略平衡梯度一致性与数据覆盖;其次,利用ElasticNet回归器基于SAE激活预测样本难度,构建簇内由易到难的课程学习路径;最后,训练线性分类器对SAE激活进行质量探测,过滤噪声样本,确保训练数据质量。该框架在数学推理任务DeepMath-103K上,结合GRPO和DAPO算法,显著提升了Qwen2.5-Math-1.5B模型的平均准确率3.00%,并减少20%的训练步数达到目标性能。

实验还表明,单一SAE模型训练于较小规模模型(Qwen3-1.7B)后,能够有效迁移至更大规模模型及不同RL算法,展现出优异的泛化能力和轻量级优势。消融研究验证了难度排序、批次混合和簇内分组对性能提升的关键作用,且适度批次混合实现了多样性与梯度一致性的最佳折中。此外,SAE激活能够准确预测数据多样性(主题标签预测准确率远超基线)、难度(Spearman相关系数显著)和质量(Pearson相关系数提升至0.37),支持其作为数据工程信号的有效性。

该研究突破了依赖外部反馈的传统范式,首次将模型内部稀疏激活作为后训练数据工程的核心信号,推动了模型可解释性与数据驱动训练的深度融合。其技术贡献在于提出了基于SAE的三维数据属性建模框架和具体数据工程操作,提升了训练效率和最终性能。未来工作将探索该方法在更广泛任务中的适用性,弱化对标注的依赖,并深化理论分析,助力大规模模型训练的智能化和高效化。

深度分析

研究背景

大规模语言模型(LLM)近年来在自然语言处理领域取得突破性进展,尤其在预训练和微调阶段表现卓越。后训练阶段,特别是强化学习(RL)微调,成为提升模型能力的关键环节。传统后训练数据工程依赖外部信号,如人类偏好、验证器反馈、模型回滚表现等,用于数据选择和课程学习。然而,这些外部信号获取成本高,且难以持续应用于整个训练过程。与此同时,模型内部激活作为模型处理数据的内在反映,蕴含丰富的语义和结构信息,近年来在模型可解释性和训练信号领域受到关注。稀疏自编码器(SAE)作为一种先进的机制可解释工具,能够将LLM的隐藏激活分解为稀疏、细粒度的特征激活,提供更解耦和可解释的内部表示。此前工作多聚焦于预训练或监督微调阶段利用模型内部信号,后训练阶段尤其是RL数据工程中,模型内部信号的潜力尚未充分挖掘。

核心问题

后训练阶段数据工程面临三大核心挑战:1)如何保证训练批次的多样性,覆盖广泛的语义和推理模式,避免训练偏差;2)如何合理排序训练样本,实现由易到难的课程学习,提升训练效率和模型泛化;3)如何过滤噪声和低质量样本,确保训练数据的可靠性和有效性。现有方法多依赖外部标注、模型回滚准确率或人类反馈,存在成本高、信号稀疏和延迟反馈等问题。是否能利用模型自身内部激活信号,精准且高效地刻画数据的多样性、难度和质量,指导后训练数据工程,成为亟待解决的关键问题。

核心创新

本文的核心创新包括:


  • �� 利用稀疏自编码器(SAE)提取LLM内部激活,构建细粒度、稀疏且可解释的特征空间,作为数据属性建模的基础。

  • �� 提出三维数据属性建模框架,分别对应数据多样性(通过SAE空间聚类与适度批次混合实现批次构建)、难度(基于ElasticNet回归器预测并校准,构建簇内易到难课程排序)和质量(训练线性分类器进行数据过滤)。

  • �� 设计适度批次混合策略,在保持梯度一致性的同时引入跨簇覆盖,优化训练动态,提升模型收敛速度和性能。

  • �� 验证单一SAE模型可跨模型规模和家族迁移,展现轻量级且高效的工程价值,突破了以往依赖外部反馈的范式。

方法详解

  • �� SAE表示提取:针对每个样本,分别从提示和解答部分提取LLM第27层隐藏激活,经过SAE编码后进行均值和最大池化,得到960维稀疏激活特征,同时结合少量浅层元数据(如长度、TeX比例)形成统一表示。

  • �� 多样性驱动批次构建:在SAE空间使用MiniBatchKMeans聚类,形成K个簇;训练时采用簇内样本排序并在相邻批次间交换少量尾部样本,实现适度批次混合,平衡梯度一致性与跨簇覆盖。

  • �� 难度驱动课程排序:利用ElasticNet回归器在3,000标注样本上训练难度预测模型,输出原始难度分数;通过簇内校准调整分数,形成簇内易到难排序,构建局部课程路径;全局课程通过簇间批次交错完成。

  • �� 质量驱动数据过滤:训练线性分类器对SAE激活进行二分类,判定样本是否属于目标分布;根据阈值或排名筛选高质量样本,过滤噪声数据,保证训练数据纯度。

  • �� 训练与评估:在DeepMath-103K数学推理数据集上,结合GRPO和DAPO强化学习算法,验证SAERL在Qwen2.5-Math-1.5B及7B模型上的性能和训练效率提升。

实验设计

实验基于DeepMath-103K数学推理数据集,涵盖多难度层级,评估六个基准测试集(GSM8K、AMC23、MATH500、MinervaMath、OlympiadBench、AIME24)。模型包括Qwen2.5-Math-1.5B和7B,训练批次大小为128。对比基线包括无课程的GRPO和DAPO,基于外部难度标签的课程学习(Difficulty Curriculum Learning)、基于回滚准确率的课程方法(Shi et al.)、以及基于隐藏状态压缩表示的数据选择方法(Wang et al.)。评估指标为平均准确率Avg@8和通过率Pass@8。消融实验考察难度排序、批次混合和簇内分组对性能的贡献。训练效率以达到目标准确率所需步数衡量。还评估了SAE激活在噪声数据筛选任务中的表现。

结果分析

SAERL在Qwen2.5-Math-1.5B模型上,较基础GRPO提升平均准确率3.00%,并减少20%训练步数达到目标性能。跨模型规模(1.5B与7B)和RL算法(GRPO、DAPO)均表现出一致提升,显示方法的泛化能力。消融实验表明,难度排序是性能提升的核心,适度批次混合和簇内分组进一步增强效果。批次多样性与性能呈现非单调关系,适度混合达到最佳平衡。SAE激活准确预测数据多样性(主题标签线性探针准确率显著高于基线)、难度(Spearman相关系数最高达0.749)和质量(Pearson相关系数提升至0.3715),支持其作为数据工程信号的有效性。噪声数据筛选中,SAE激活线性分类器达到0.9911 ROC-AUC,成功过滤大部分非目标分布样本。

应用场景

SAERL框架适用于大规模语言模型的强化学习后训练阶段,尤其在数学推理等结构化任务中表现优异。其轻量级SAE模型可跨规模和模型家族迁移,便于工业界快速集成和部署。通过精准的数据多样性控制、难度排序和质量过滤,提升训练效率和模型性能,降低标注和回滚成本。未来可扩展至代码生成、智能代理、多模态任务等多样化场景,推动模型训练的自动化和智能化。

局限与展望

本研究聚焦数学推理领域,依赖可验证奖励信号,尚未验证在其他任务的适用性。难度和质量估计依赖有限标注,未实现完全无监督。理论上缺乏对SAE空间与训练动态因果关系的严格证明,未来需结合梯度信息深化理论分析。

原文摘要

Model internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data engineering largely relies on external signals and ignores rich intrinsic signals lying in model internals. We propose SAERL, a data engineering framework for LLM reinforcement learning (RL). It models three intrinsic data properties: diversity, difficulty, and quality, using model internals extracted with Sparse Autoencoder (SAE), an advanced mechanistic interpretability tool. Each property grounds a concrete data engineering operation: SAE-space clustering with moderate batch mixing for batch diversity control, a difficulty proxy for easy-to-hard curriculum ordering, and a quality probe for data filtering. SAERL improves average accuracy by 3.00% over vanilla GRPO and reaches target accuracy with 20% fewer training steps on Qwen2.5-Math-1.5B, with consistent gains across model scales and RL algorithms. Experiments show that SAE transfers effectively across model families and scales, serving as a lightweight and reusable data engineering tool. These results demonstrate that model internals are a powerful and practical source of signals for post-training data engineering.

cs.LG cs.AI cs.CL

参考文献 (20)

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

Zhiwei He, Tian Liang, Jiahao Xu 等

2025 178 引用 ⭐ 高影响力 查看解读 →

Training Verifiers to Solve Math Word Problems

K. Cobbe, Vineet Kosaraju, Mo Bavarian 等

2021 8859 引用 查看解读 →

SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder

Dengcan Liu, Jiahao Li, Zheren Fu 等

2025 4 引用 查看解读 →

Solving Quantitative Reasoning Problems with Language Models

Aitor Lewkowycz, Anders Andreassen, David Dohan 等

2022 1702 引用 查看解读 →

Web-scale k-means clustering

D. Sculley

2010 1296 引用

The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

Guilherme Penedo, Hynek Kydlícek, Loubna Ben Allal 等

2024 878 引用 查看解读 →

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

Chaoqun He, Renjie Luo, Yuzhuo Bai 等

2024 1059 引用 查看解读 →

Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals

Qinsi Wang, Jinghan Ke, Hancheng Ye 等

2025 15 引用 查看解读 →

Let's Verify Step by Step

H. Lightman, Vineet Kosaraju, Yura Burda 等

2023 3319 引用 查看解读 →

Data-Efficient RLVR via Off-Policy Influence Guidance

Erle Zhu, Dazhi Jiang, Yuan Wang 等

2025 4 引用 查看解读 →

Analyzing Similarity Metrics for Data Selection for Language Model Pretraining

Dylan Sam, Ayan Chakrabarti, A. Rostamizadeh 等

2025 3 引用 查看解读 →

Training language models to follow instructions with human feedback

Long Ouyang, Jeff Wu, Xu Jiang 等

2022 21058 引用 查看解读 →

UFO-RL: Uncertainty-Focused Optimization for Efficient Reinforcement Learning Data Selection

Yang Zhao, Kai Xiong, Xiao Ding 等

2025 4 引用 查看解读 →

LearnAlign: Data Selection for LLM Reinforcement Learning with Improved Gradient Alignment

Shipeng Li, Zhiqing Yang, Shikun Li 等

2025 1 引用 查看解读 →

GLM-5: from Vibe Coding to Agentic Engineering

GLM-4.5 Team Aohan Zeng, Xin Lv, Zhenyu Hou 等

2026 117 引用 查看解读 →

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Sanmit Narvekar, Bei Peng, M. Leonetti 等

2020 697 引用 查看解读 →

Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning

Ming Li, Yong Zhang, Shwai He 等

2024 141 引用 查看解读 →

Addendum: Regularization and variable selection via the elastic net

H. Zou, T. Hastie

2005 10206 引用

Diversity-driven Data Selection for Language Model Tuning through Sparse Autoencoder

Xianjun Yang, Shaoliang Nie, Lijuan Liu 等

2025 12 引用 查看解读 →

Large-Scale Machine Learning with Stochastic Gradient Descent

L. Bottou

2010 6324 引用