SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

TL;DR

SortedRL通过在线长度感知调度加速大语言模型的强化学习训练，提升效率并提高性能。

cs.LG 🔴 高级 2026-03-25 7 引用 51 次浏览

Yiqi Zhang Huiqiang Jiang Xufang Luo Zhihe Yang Chengruidong Zhang Yifei Shen Dongsheng Li Yuqing Yang Lili Qiu Yang You

AI 阅读器 Arxiv 原文下载 PDF

强化学习大语言模型在线调度样本效率训练加速

核心发现

方法论

SortedRL是一种在线长度感知调度策略，旨在通过优化rollout阶段的效率来加速大语言模型的强化学习训练。其核心在于根据输出长度对rollout样本进行重新排序，优先处理短样本以便于早期更新。这种方法允许大规模rollout批次、灵活的更新批次以及接近on-policy的微课程构建。同时，SortedRL通过缓存机制控制off-policy训练的程度，并由专用的RL基础设施支持，管理rollout和更新过程。

关键结果

SortedRL在使用LLaMA-3.1-8B和Qwen-2.5-32B进行的实验中，RL训练泡沫比率减少了超过50%，在逻辑谜题和数学挑战（如AIME 24、Math 500、Minerval）上，比基线性能提高了3.9%到18.4%。
在逻辑推理任务中，使用SortedRL的LLaMA-3.1-8B-Instruct在使用40.74%更少样本的情况下达到了与基线相同的高分。
在数学问题上，SortedRL在OlympiadBench、AIME 2024和AMC 2023上表现出色，展示了其在复杂任务中的有效性。

研究意义

SortedRL通过提高rollout阶段的效率和样本利用率，解决了大语言模型在强化学习训练中的主要瓶颈问题。其在线长度感知调度策略不仅提高了训练速度，还显著提升了模型在逻辑推理和数学问题上的性能。这一策略的成功应用展示了在大规模模型训练中，如何通过优化调度策略来克服硬件利用率低下的问题，为未来的研究和应用提供了新的思路。

技术贡献

SortedRL的技术贡献主要体现在其创新的在线长度感知调度策略上，该策略通过重新排序rollout样本来提高硬件利用率和训练效率。此外，SortedRL引入了一个缓存机制来控制off-policy训练的程度，并设计了一套专用的RL基础设施来支持这一策略。这些技术创新不仅提高了训练效率，还为大规模模型的强化学习训练提供了新的工程可能性。

新颖性

SortedRL首次提出了在线长度感知调度策略，通过优化rollout阶段的样本排序来提高训练效率。这一策略与以往的工作不同之处在于，它能够动态调整样本的处理顺序，从而在不增加额外开销的情况下实现接近on-policy的训练。这种创新在大规模模型的强化学习训练中具有重要意义。

局限性

SortedRL在处理非常长的生成序列时，可能仍然会遇到硬件利用率不均的问题，因为长序列的生成时间较长，可能导致部分硬件资源闲置。
该方法在不同任务上的表现可能会有所不同，尤其是在任务特征与训练数据分布差异较大的情况下。
虽然SortedRL在多项任务中表现出色，但其在更大规模模型上的扩展性和稳定性仍需进一步验证。

未来方向

未来的研究可以进一步优化SortedRL的调度策略，以更好地适应不同任务的特征和需求。此外，可以探索SortedRL在更大规模模型上的应用，以及如何结合其他优化技术来进一步提高训练效率和模型性能。社区也可以关注如何将SortedRL与其他先进的训练框架结合，以实现更高效的模型训练。

AI 总览摘要

在大语言模型的训练中，强化学习（RL）被认为是提升模型推理能力的关键方法之一，尤其是在需要生成长链推理的任务中。然而，RL训练效率常常受到rollout阶段的限制，因为这一阶段可能占据总训练时间的70%。这种低效主要源于缓慢的自回归生成和rollout与策略更新之间的同步开销。

为了解决这一瓶颈，SortedRL提出了一种在线长度感知调度策略，通过优化rollout效率来加速RL训练。SortedRL通过根据输出长度对rollout样本进行重新排序，优先处理短样本以便于早期更新。这种方法允许大规模rollout批次、灵活的更新批次以及接近on-policy的微课程构建。

SortedRL还引入了一个缓存机制来控制off-policy训练的程度，并由专用的RL基础设施支持，管理rollout和更新过程。实验表明，SortedRL在使用LLaMA-3.1-8B和Qwen-2.5-32B进行的多项任务中，RL训练泡沫比率减少了超过50%，在逻辑谜题和数学挑战上，比基线性能提高了3.9%到18.4%。

SortedRL的成功展示了在大规模模型训练中，通过优化调度策略可以显著提高训练效率和模型性能。这一策略不仅解决了大语言模型在RL训练中的主要瓶颈问题，还为未来的研究和应用提供了新的思路。

然而，SortedRL在处理非常长的生成序列时，可能仍然会遇到硬件利用率不均的问题。此外，该方法在不同任务上的表现可能会有所不同，尤其是在任务特征与训练数据分布差异较大的情况下。未来的研究可以进一步优化SortedRL的调度策略，以更好地适应不同任务的特征和需求。

深度分析

研究背景

近年来，大语言模型（LLMs）在多项任务中取得了显著的性能提升，尤其是在自然语言处理和生成任务中。随着模型规模的不断扩大，如何有效地训练这些模型成为一个重要的研究方向。强化学习（RL）作为一种增强模型推理能力的方法，逐渐受到关注。RL通过生成中间推理步骤并应用基于结果的奖励来指导模型训练，已被证明在复杂任务中可以显著提升模型性能。然而，RL训练的效率常常受到rollout阶段的限制，因为这一阶段需要生成长序列，导致硬件资源利用率低下。为了提高训练效率，研究人员提出了多种优化策略，如连续批处理和分块预填充，但这些方法在实际应用中仍然面临挑战。

核心问题

在大语言模型的RL训练中，rollout阶段是主要的瓶颈，因为生成长序列需要耗费大量时间和计算资源。由于生成过程是自回归的，长序列的生成速度较慢，导致硬件资源未得到充分利用。此外，常用的RL算法是on-policy的，这意味着在生成完成之前无法进行更新。当批次中样本的响应长度差异较大时，会导致硬件资源的低效利用，产生所谓的“泡沫”现象。如何提高rollout阶段的效率，减少计算资源的浪费，是当前研究的核心问题。

核心创新

SortedRL提出了一种创新的在线长度感知调度策略，通过优化rollout阶段的样本排序来提高训练效率。• 在线长度感知调度：根据输出长度对rollout样本进行重新排序，优先处理短样本以便于早期更新。这种方法允许大规模rollout批次、灵活的更新批次以及接近on-policy的微课程构建。• 缓存机制：引入缓存机制来控制off-policy训练的程度，通过缓存未完成的样本，加速管道处理。• 专用RL基础设施：设计了一套专用的基础设施来支持SortedRL，管理rollout和更新过程，最大化吞吐量并保持训练一致性。

方法详解

SortedRL的实现包括以下关键步骤：

�� 在线长度感知调度：根据输出长度对rollout样本进行排序，优先处理短样本。
�� 缓存机制：通过缓存未完成的样本，加速管道处理。
�� 专用RL基础设施：设计了一套专用的基础设施来支持SortedRL，管理rollout和更新过程。
�� 生成长度感知调度：通过预测生成长度，动态调整样本的处理顺序。
�� 分组rollout和微课程：将提示组织成批次组，确保所有提示在有限时间内得到充分处理。
�� 选择性批处理：根据批次准备情况，以专门的顺序和组合将轨迹提供给训练器。

实验设计

SortedRL在LLaMA-3.1-8B和Qwen-2.5-32B上进行了广泛的实验，涵盖逻辑谜题和数学挑战等多项任务。实验设计包括：• 数据集：LogicRL和DAPO-Math-17k，分别用于逻辑推理和数学问题。• 基线：使用Reinforce++和PPO进行对比。• 评估指标：准确率、泡沫比率、响应长度等。• 关键超参数：rollout批次大小、更新批次大小、缓存策略等。• 消融研究：分析不同组件对性能的影响。

结果分析

SortedRL在多项任务中展示了显著的性能提升：• 在逻辑推理任务中，使用SortedRL的LLaMA-3.1-8B-Instruct在使用40.74%更少样本的情况下达到了与基线相同的高分。• 在数学问题上，SortedRL在OlympiadBench、AIME 2024和AMC 2023上表现出色，展示了其在复杂任务中的有效性。• RL训练泡沫比率减少了超过50%，在逻辑谜题和数学挑战上，比基线性能提高了3.9%到18.4%。

应用场景

SortedRL的应用场景包括：• 提高大语言模型在逻辑推理和数学问题上的性能，适用于需要生成长链推理的任务。• 在需要高效训练的大规模模型中，通过优化调度策略来提高硬件利用率和训练效率。• 结合其他优化技术，实现更高效的模型训练和应用。

局限与展望

SortedRL在处理非常长的生成序列时，可能仍然会遇到硬件利用率不均的问题。此外，该方法在不同任务上的表现可能会有所不同，尤其是在任务特征与训练数据分布差异较大的情况下。未来的研究可以进一步优化SortedRL的调度策略，以更好地适应不同任务的特征和需求。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。你有很多不同长度的食材要准备，比如切菜、煮饭和烤肉。每种食材需要的时间不同，如果你不合理安排，可能会导致一些食材做好了却没法马上用，而其他食材还在等着。SortedRL就像一个聪明的厨师，它会根据每种食材需要的时间来安排顺序，先处理那些需要时间短的食材，这样你就可以更快地完成整个菜肴的准备。这种方法不仅提高了效率，还能保证每道菜的味道都很棒，因为所有食材都在最佳状态下被使用。就像在厨房里一样，SortedRL在大语言模型的训练中，通过优化样本的处理顺序，提高了训练的效率和模型的性能。

简单解释像给14岁少年讲一样

想象一下你在玩一个需要解谜的游戏。游戏中有很多关卡，每个关卡的难度不同，有的很简单，有的很复杂。你希望能快速通过这些关卡，但有时候你会卡在某个难关上，浪费了很多时间。SortedRL就像是一个聪明的游戏助手，它会帮你安排这些关卡的顺序，让你先玩那些简单的关卡，这样你可以快速积累经验，提升技能，然后再去挑战那些复杂的关卡。这种方法不仅让你更快地通过游戏，还能让你在每个关卡中都表现得更好。SortedRL在大语言模型的训练中，就是通过优化样本的处理顺序，提高了训练的效率和模型的性能。

术语表

强化学习 (Reinforcement Learning)

一种机器学习方法，通过奖励和惩罚机制来指导模型学习最优策略。

在论文中用于提升大语言模型的推理能力。

大语言模型 (Large Language Model)

一种基于深度学习的模型，能够处理和生成自然语言文本。

论文中使用LLaMA-3.1-8B和Qwen-2.5-32B进行实验。

rollout

在强化学习中，指模型根据当前策略生成一系列动作和状态的过程。

论文中rollout阶段是训练的主要瓶颈。

on-policy

一种强化学习策略，模型在训练中使用最新的策略进行更新。

SortedRL通过在线长度感知调度实现接近on-policy的训练。

off-policy

一种强化学习策略，模型在训练中可以使用旧的策略数据进行更新。

SortedRL通过缓存机制控制off-policy训练的程度。

泡沫比率 (Bubble Ratio)

指在计算过程中，硬件资源未被充分利用的时间比例。

SortedRL通过优化调度策略减少了泡沫比率。

自回归生成 (Autoregressive Generation)

一种生成序列的方法，每个步骤的输出依赖于之前的输出。

论文中自回归生成导致rollout阶段效率低下。

微课程 (Micro-curriculum)

一种训练策略，通过逐步增加任务难度来提高模型的学习效果。

SortedRL通过样本排序实现了接近on-policy的微课程构建。

缓存机制 (Cache Mechanism)

一种存储和管理未完成样本的策略，用于加速训练过程。

SortedRL通过缓存机制控制off-policy训练的程度。

LLaMA-3.1-8B

一种大语言模型，具有8B参数，用于逻辑推理任务的实验。

论文中用于验证SortedRL在逻辑推理任务中的性能。

Qwen-2.5-32B

一种大语言模型，具有32B参数，用于数学问题的实验。

论文中用于验证SortedRL在数学问题中的性能。

开放问题这项研究留下的未解疑问

1 SortedRL在处理非常长的生成序列时，可能仍然会遇到硬件利用率不均的问题。未来的研究可以探索如何进一步优化调度策略，以更好地适应不同任务的特征和需求。
2 虽然SortedRL在多项任务中表现出色，但其在更大规模模型上的扩展性和稳定性仍需进一步验证。研究可以探索如何将SortedRL与其他先进的训练框架结合，以实现更高效的模型训练。
3 SortedRL在不同任务上的表现可能会有所不同，尤其是在任务特征与训练数据分布差异较大的情况下。未来的研究可以探索如何更好地适应这些差异。
4 SortedRL的缓存机制在不同任务中的效果可能会有所不同。研究可以探索如何优化缓存策略，以提高训练效率和模型性能。
5 SortedRL的在线长度感知调度策略在不同任务中的效果可能会有所不同。未来的研究可以探索如何更好地适应不同任务的特征和需求。

应用场景

近期应用

逻辑推理任务

SortedRL可以提高大语言模型在逻辑推理任务上的性能，适用于需要生成长链推理的任务。

数学问题求解

SortedRL在数学问题上表现出色，可以用于提高模型在数学竞赛和挑战中的表现。

大规模模型训练

SortedRL通过优化调度策略，提高了大规模模型的训练效率和硬件利用率。

远期愿景

智能助手

SortedRL可以用于训练更智能的语言模型，提升智能助手的推理能力和响应速度。

自动化推理系统

SortedRL可以用于开发更高效的自动化推理系统，应用于科学研究和技术开发中。

原文摘要

Scaling reinforcement learning (RL) has shown strong promise for enhancing the reasoning abilities of large language models (LLMs), particularly in tasks requiring long chain-of-thought generation. However, RL training efficiency is often bottlenecked by the rollout phase, which can account for up to 70% of total training time when generating long trajectories (e.g., 16k tokens), due to slow autoregressive generation and synchronization overhead between rollout and policy updates. We propose SortedRL, an online length-aware scheduling strategy designed to address this bottleneck by improving rollout efficiency and maintaining training stability. SortedRL reorders rollout samples based on output lengths, prioritizing short samples forming groups for early updates. This enables large rollout batches, flexible update batches, and near on-policy micro-curriculum construction simultaneously. To further accelerate the pipeline, SortedRL incorporates a mechanism to control the degree of off-policy training through a cache-based mechanism, and is supported by a dedicated RL infrastructure that manages rollout and update via a stateful controller and rollout buffer. Experiments using LLaMA-3.1-8B and Qwen-2.5-32B on diverse tasks, including logical puzzles, and math challenges like AIME 24, Math 500, and Minerval, show that SortedRL reduces RL training bubble ratios by over 50%, while attaining 3.9% to 18.4% superior performance over baseline given same amount of data.

cs.LG cs.AI

参考文献 (20)

OpenAI o1 System Card

Ahmed El-Kishky

2024 1594 引用 ⭐ 高影响力

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

Chaoqun He, Renjie Luo, Yuzhuo Bai 等

2024 866 引用 ⭐ 高影响力查看解读 →

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Adam Suma, Sam Dauncey

2025 1963 引用 ⭐ 高影响力

Proximal Policy Optimization Algorithms

John Schulman, Filip Wolski, Prafulla Dhariwal 等

2017 26047 引用 ⭐ 高影响力查看解读 →

Measuring Mathematical Problem Solving With the MATH Dataset

Dan Hendrycks, Collin Burns, Saurav Kadavath 等

2021 4648 引用 ⭐ 高影响力查看解读 →

ZeRO: Memory Optimization Towards Training A Trillion Parameter Models

Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase 等

2019 620 引用

GPT-4 Technical Report

OpenAI Josh Achiam, Steven Adler, S. Agarwal 等

2023 23049 引用查看解读 →

Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization

Rajkumar Ramamurthy, Prithviraj Ammanabrolu, Kianté Brantley 等

2022 286 引用查看解读 →

Solving Quantitative Reasoning Problems with Language Models

Aitor Lewkowycz, Anders Andreassen, David Dohan 等

2022 1510 引用查看解读 →

Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training

Shenggui Li, Zhengda Bian, Hongxin Liu 等

2021 198 引用查看解读 →

Training Verifiers to Solve Math Word Problems

K. Cobbe, Vineet Kosaraju, Mo Bavarian 等

2021 7843 引用查看解读 →

ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep learning

Samyam Rajbhandari, Olatunji Ruwase, Jeff Rasley 等

2021 494 引用查看解读 →

Efficient Memory Management for Large Language Model Serving with PagedAttention

Woosuk Kwon, Zhuohan Li, Siyuan Zhuang 等

2023 5068 引用查看解读 →

REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Jian Hu

2025 215 引用

OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

Jian Hu, Xibin Wu, Weixun Wang 等

2024 281 引用

DeepSeek-V3 Technical Report

DeepSeek-AI, A. Liu, B. Feng 等

2024 2821 引用

Orca: A Distributed Serving System for Transformer-Based Generative Models

Gyeong-In Yu, Joo Seong Jeong

2022 612 引用

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 3803 引用查看解读 →

SGLang: Efficient Execution of Structured Language Model Programs

Lianmin Zheng, Liangsheng Yin, Zhiqiang Xie 等

2023 646 引用查看解读 →

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Zhihong Shao, Peiyi Wang, Qihao Zhu 等

2024 5149 引用查看解读 →

被引用 (7)

Not all tokens are needed(NAT): token efficient reinforcement learning

2026 查看解读 →

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

2026 查看解读 →

RL over Commodity Networks: Overcoming the Bandwidth Barrier with Lossless Sparse Deltas

2026 查看解读 →

Unleashing Efficient Asynchronous RL Post-Training via Staleness-Constrained Rollout Coordination

2026 1 引用查看解读 →

SPEC-RL: Accelerating On-Policy Reinforcement Learning with Speculative Rollouts

2025 查看解读 →

APRIL: Active Partial Rollouts in Reinforcement Learning to Tame Long-tail Generation

2025 8 引用查看解读 →

SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts

2025 8 引用

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

强化学习 (Reinforcement Learning)

大语言模型 (Large Language Model)

rollout

on-policy

off-policy

泡沫比率 (Bubble Ratio)

自回归生成 (Autoregressive Generation)

微课程 (Micro-curriculum)

缓存机制 (Cache Mechanism)

LLaMA-3.1-8B

Qwen-2.5-32B

开放问题 这项研究留下的未解疑问

应用场景

近期应用

逻辑推理任务

数学问题求解

大规模模型训练

远期愿景

智能助手

自动化推理系统

原文摘要

参考文献 (20)

被引用 (7)

相关论文

Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

Efficient learning by implicit exploration in bandit problems with side observations

Necessary and sufficient conditions for universality of Kolmogorov-Arnold networks

Collocation-based Robust Physics Informed Neural Networks for time-dependent simulations of pollution propagation under thermal inversion conditions on Spitsbergen

Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

Neural Recovery of Historical Lexical Structure in Bantu Languages from Modern Data

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问