ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation

TL;DR

ReCast框架在生成推荐中提升Pass@1达36.6%，优化稀疏命中信号。

cs.LG 🔴 高级 2026-04-24 32 次浏览

Peiyan Zhang Hanmo Liu Chengxuan Tong Yuxia Wu Wei Guo Yong Liu

强化学习生成推荐信号重构对比学习系统优化

核心发现

方法论

ReCast是一种修复-对比学习信号框架，专为稀疏命中生成推荐设计。其核心在于修复全零组的可学习性，并通过对最强正样本和最难负样本进行边界对比更新，替代全组奖励归一化。ReCast保持外部RL框架不变，仅修改组内信号构建，部分解耦搜索宽度与更新宽度。

关键结果

ReCast在多个生成推荐任务中表现优于OpenOneRec-RL，Pass@1相对提升达36.6%。在相同预算下，ReCast仅用4.1%的预算就达到了基线性能，且随着模型规模增加，这一优势进一步扩大。
系统层面，ReCast将actor端更新时间减少了16.60倍，峰值内存分配降低了16.5%，actor MFU提高了14.2%。
机制分析显示，ReCast缓解了持续的全零/单命中状态，恢复了自然正样本稀缺时的可学习性，并将原本浪费的rollout预算转化为更稳定的策略更新。

研究意义

ReCast框架在生成推荐领域具有重要意义。它不仅提高了推荐质量，还显著提升了RL后训练的扩展效率。通过解决稀疏命中情况下的信号退化问题，ReCast为生成推荐中的强化学习提供了新的思路，尤其是在自然正样本稀缺的情况下，能够有效恢复可学习性并优化策略更新。

技术贡献

ReCast的技术贡献在于其创新的信号构建方法，区别于传统的组内奖励归一化，采用边界对比更新策略。这种方法不仅提高了学习信号的质量，还降低了系统的计算成本。通过部分解耦搜索宽度与更新宽度，ReCast在大规模模型和稀疏命中场景下表现出色。

新颖性

ReCast首次在生成推荐中引入修复-对比信号设计，解决了稀疏命中下的信号退化问题。与现有方法相比，ReCast不仅关注奖励分配，还注重从稀疏、结构化监督中构建可学习的优化事件。

局限性

ReCast在多目标或延迟反馈环境中的表现尚未验证，这可能影响其在更复杂场景中的适用性。
修复机制在模型自然形成可学习边界时可能引入偏差，需进一步优化。
当前的修复策略在更强的骨干网络中可能不再必要，需开发自适应的RL-SFT接口。

未来方向

未来工作可以探索ReCast在多目标和延迟反馈环境中的应用。此外，开发自适应的RL-SFT接口，以动态调整修复和信号更新策略，进一步提高模型的适应性和性能。

AI 总览摘要

在生成推荐系统中，传统的强化学习方法通常假设采样的组已经是可用的学习信号。然而，在稀疏命中场景下，这一假设往往失效，因为许多采样组从未成为可训练的学习单元。

ReCast框架通过修复-对比信号设计，解决了这一问题。首先，ReCast通过注入有效的正锚点，恢复全零组的最低可学习性。然后，它应用边界对比更新，仅对最强正样本和最难负样本进行更新，替代全组奖励归一化。

实验结果显示，ReCast在多个生成推荐任务中表现优于现有方法，Pass@1相对提升达36.6%。在相同预算下，ReCast仅用4.1%的预算就达到了基线性能，且随着模型规模增加，这一优势进一步扩大。

ReCast不仅提高了推荐质量，还显著提升了RL后训练的扩展效率。系统层面，ReCast将actor端更新时间减少了16.60倍，峰值内存分配降低了16.5%，actor MFU提高了14.2%。

然而，ReCast在多目标或延迟反馈环境中的表现尚未验证，这可能影响其在更复杂场景中的适用性。未来工作可以探索ReCast在这些环境中的应用，并开发自适应的RL-SFT接口，以动态调整修复和信号更新策略，进一步提高模型的适应性和性能。

深度分析

研究背景

生成推荐系统近年来受到广泛关注，其核心在于通过生成模型直接生成推荐项，而非传统的候选项打分。强化学习（RL）被广泛应用于优化命中率等指标。然而，现有方法大多继承了通用的基于组的RL方法，假设采样的组已经是可用的学习信号。在稀疏命中场景下，这一假设往往失效，因为许多采样组从未成为可训练的学习单元。

核心问题

在稀疏命中生成推荐中，许多采样组从未成为可训练的学习单元。全零组由于缺乏正负边界而不可学习，单命中组虽然可学习但脆弱，更新受偶然命中和噪声组统计主导。二元监督进一步将结构化的接近命中折叠为与完全无关的输出相同的零奖励类。

核心创新

ReCast框架通过修复-对比信号设计，解决了稀疏命中下的信号退化问题。首先，ReCast通过注入有效的正锚点，恢复全零组的最低可学习性。然后，它应用边界对比更新，仅对最强正样本和最难负样本进行更新，替代全组奖励归一化。ReCast保持外部RL框架不变，仅修改组内信号构建，部分解耦搜索宽度与更新宽度。

方法详解

�� 修复全零组：通过注入有效的正锚点，恢复最低可学习性。
�� 边界对比更新：仅对最强正样本和最难负样本进行更新，替代全组奖励归一化。
�� 保持外部RL框架不变，仅修改组内信号构建。
�� 部分解耦搜索宽度与更新宽度，提高扩展效率。

实验设计

实验在多个生成推荐任务上进行，包括短视频推荐、广告推荐、产品推荐等。使用的基线是OpenOneRec-RL，其RL阶段应用GRPO风格的组内奖励归一化。实验评估了ReCast在相同预算下的性能提升，并分析了修复和边界对比更新的作用。

结果分析

ReCast在多个生成推荐任务中表现优于OpenOneRec-RL，Pass@1相对提升达36.6%。在相同预算下，ReCast仅用4.1%的预算就达到了基线性能，且随着模型规模增加，这一优势进一步扩大。系统层面，ReCast将actor端更新时间减少了16.60倍，峰值内存分配降低了16.5%，actor MFU提高了14.2%。

应用场景

ReCast可直接应用于生成推荐系统，尤其是在自然正样本稀缺的场景下。通过提高推荐质量和系统效率，ReCast有望在广告推荐、产品推荐等领域带来显著的商业价值。

局限与展望

ReCast在多目标或延迟反馈环境中的表现尚未验证，这可能影响其在更复杂场景中的适用性。修复机制在模型自然形成可学习边界时可能引入偏差，需进一步优化。当前的修复策略在更强的骨干网络中可能不再必要，需开发自适应的RL-SFT接口。

通俗解读非专业人士也能看懂

想象你在一个厨房里，准备做一道复杂的菜肴。传统的方法是一次性准备好所有食材，然后希望它们能完美结合，做出美味的菜肴。但在现实中，有时我们会发现某些食材不够新鲜，或者搭配不当，导致菜肴的味道不如预期。

ReCast就像是一个聪明的厨师，他会在烹饪过程中不断调整食材的搭配，确保每一步都能最大化地发挥食材的潜力。首先，他会检查所有食材，确保没有一个是完全无用的。如果发现有食材不够新鲜，他会用一些调味料来提升它的味道。

接下来，他会专注于那些最能提升菜肴味道的食材，而不是平均分配注意力给所有食材。这样，他就能确保每一道菜都能达到最佳的味道，而不是依赖于偶然的运气。

通过这种方法，ReCast不仅提高了菜肴的整体质量，还减少了浪费的食材和时间。它就像是一个厨房里的魔法师，能够在有限的条件下，创造出令人惊叹的美味。

简单解释像给14岁少年讲一样

嘿，小伙伴们！今天我要跟你们聊聊一个超级酷的东西，叫做ReCast。想象一下，你在玩一个游戏，目标是找到隐藏在地图上的宝藏。传统的方法是一次性探索整个地图，希望能找到宝藏。但有时候，这样的方法效率不高，因为地图太大，宝藏太少。

ReCast就像是一个聪明的探险家，他会先检查地图，看看哪些地方可能藏有宝藏。如果发现某个地方完全没有宝藏的迹象，他会用一些线索来帮助自己找到可能的宝藏位置。

然后，他会专注于那些最有可能找到宝藏的地方，而不是平均分配时间给整个地图。这样，他就能更快地找到宝藏，而不是依赖于偶然的运气。

通过这种方法，ReCast不仅提高了找到宝藏的概率，还减少了浪费的时间和精力。它就像是游戏里的魔法工具，能够在有限的条件下，帮助你更快地达到目标。

术语表

ReCast

ReCast是一种修复-对比学习信号框架，专为稀疏命中生成推荐设计。其核心在于修复全零组的可学习性，并通过对最强正样本和最难负样本进行边界对比更新。

在论文中，ReCast用于解决稀疏命中下的信号退化问题。

强化学习 (Reinforcement Learning)

一种机器学习方法，通过与环境交互来学习策略，以最大化累积奖励。

在生成推荐中，RL用于优化命中率等指标。

生成推荐 (Generative Recommendation)

通过生成模型直接生成推荐项，而非传统的候选项打分。

ReCast应用于生成推荐任务中，以提高推荐质量。

信号退化 (Signal Degeneracy)

在稀疏命中场景下，许多采样组从未成为可训练的学习单元，导致信号退化。

ReCast通过修复-对比信号设计解决了这一问题。

边界对比更新 (Boundary Contrastive Update)

仅对最强正样本和最难负样本进行更新，替代全组奖励归一化。

ReCast采用这种方法提高学习信号的质量。

全零组 (All-zero Group)

在稀疏命中场景下，所有响应均为零奖励的组，因缺乏正负边界而不可学习。

ReCast通过注入有效的正锚点，恢复全零组的最低可学习性。

单命中组 (Single-hit Group)

在稀疏命中场景下，仅有一个正样本的组，更新受偶然命中和噪声组统计主导。

ReCast通过边界对比更新提高了单命中组的稳定性。

修复机制 (Repair Mechanism)

通过注入有效的正锚点，恢复全零组的最低可学习性。

ReCast的修复机制用于解决信号退化问题。

系统效率 (System Efficiency)

指在相同预算下，系统在时间、内存和计算资源上的利用效率。

ReCast显著提高了系统效率，减少了actor端更新时间和内存使用。

稀疏命中 (Sparse-hit)

在生成推荐中，自然正样本稀缺的场景。

ReCast通过修复-对比信号设计，优化了稀疏命中场景下的推荐质量。

开放问题这项研究留下的未解疑问

1 ReCast在多目标或延迟反馈环境中的表现尚未验证，这可能影响其在更复杂场景中的适用性。未来研究需探索其在不同环境中的鲁棒性。
2 修复机制在模型自然形成可学习边界时可能引入偏差，需进一步优化。研究者需开发自适应的RL-SFT接口，以动态调整修复和信号更新策略。
3 当前的修复策略在更强的骨干网络中可能不再必要，需探索更为灵活的修复策略，以适应不同的模型规模和任务需求。
4 ReCast的边界对比更新策略在更复杂的推荐任务中的表现尚不明确，需进一步研究其在多维度推荐指标上的适用性。
5 ReCast在长时间训练中的稳定性和性能保持能力尚需验证，特别是在大规模数据集和高复杂度任务中的表现。

应用场景

近期应用

广告推荐优化

通过提高推荐质量和系统效率，ReCast可直接应用于广告推荐系统，帮助广告商更精准地触达目标用户，提升广告转化率。

产品推荐增强

在电商平台中，ReCast可用于优化产品推荐，提升用户购物体验和平台销售额。

短视频推荐

ReCast在短视频推荐中表现优异，可帮助平台提高用户粘性和观看时长，增加广告收入。

远期愿景

跨平台推荐系统

ReCast的高效性和适应性使其有潜力成为跨平台推荐系统的核心技术，支持多种内容形式的个性化推荐。

智能内容生成

通过优化生成推荐，ReCast可推动智能内容生成技术的发展，支持自动化内容创作和分发，提升用户体验。

原文摘要

Generic group-based RL assumes that sampled rollout groups are already usable learning signals. We show that this assumption breaks down in sparse-hit generative recommendation, where many sampled groups never become learnable at all. We propose ReCast, a repair-then-contrast learning-signal framework that first restores minimal learnability for all-zero groups and then replaces full-group reward normalization with a boundary-focused contrastive update on the strongest positive and the hardest negative. ReCast leaves the outer RL framework unchanged, modifies only within-group signal construction, and partially decouples rollout search width from actor-side update width. Across multiple generative recommendation tasks, ReCast consistently outperforms OpenOneRec-RL, achieving up to 36.6% relative improvement in Pass@1. Its matched-budget advantage is substantially larger: ReCast reaches the baseline's target performance with only 4.1% of the rollout budget, and this advantage widens with model scale. The same design also yields direct system-level gains, reducing actor-side update time by 16.60x, lowering peak allocated memory by 16.5%, and improving actor MFU by 14.2%. Mechanism analysis shows that ReCast mitigates the persistent all-zero / single-hit regime, restores learnability when natural positives are scarce, and converts otherwise wasted rollout budget into more stable policy updates. These results suggest that, for generative recommendation, the decisive RL problem is not only how to assign rewards, but how to construct learnable optimization events from sparse, structured supervision.

cs.LG cs.AI cs.IR

参考文献 (20)

Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation

Hongxun Ding, Keqin Bao, Jizhi Zhang 等

2026 1 引用 ⭐ 高影响力查看解读 →

Recommender Systems with Generative Retrieval

Shashank Rajput, Nikhil Mehta, Anima Singh 等

2023 245 引用 ⭐ 高影响力查看解读 →

EAGER-LLM: Enhancing Large Language Models as Recommenders through Exogenous Behavior-Semantic Integration

Minjie Hong, Yan Xia, Zehan Wang 等

2025 29 引用 ⭐ 高影响力查看解读 →

OpenOneRec Technical Report

Guorui Zhou, Honghui Bao, Jiaming Huang 等

2025 4 引用 ⭐ 高影响力查看解读 →

OneRec Technical Report

Guorui Zhou, Jiaxin Deng, Jinghao Zhang 等

2025 20 引用查看解读 →

OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation

Xuegang Hao, Ming Zhang, Alex Li 等

2025 7 引用查看解读 →

Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt & Predict Paradigm (P5)

Shijie Geng, Shuchang Liu, Zuohui Fu 等

2022 798 引用查看解读 →

M6-Rec: Generative Pretrained Language Models are Open-Ended Recommender Systems

Zeyu Cui, Jianxin Ma, Chang Zhou 等

2022 272 引用查看解读 →

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Adam Suma, Sam Dauncey

2025 2557 引用

OneRec-Think: In-Text Reasoning for Generative Recommendation

Zhanyun Liu, Shiyao Wang, Xing-Yao Wang 等

2025 27 引用查看解读 →

EAGER: Two-Stream Generative Recommender with Behavior-Semantic Collaboration

Yejin Wang, Jiahao Xun, Ming Hong 等

2024 80 引用查看解读 →

UNGER: Generative Recommendation with A Unified Code via Semantic and Collaborative Integration

Longtao Xiao, Haozhao Wang, Cheng Wang 等

2025 11 引用查看解读 →

OneRec-V2 Technical Report

Guorui Zhou, Hengrui Hu, Hongtao Cheng 等

2025 11 引用查看解读 →

Adapting Large Language Models by Integrating Collaborative Semantics for Recommendation

Bowen Zheng, Yupeng Hou, Hongyu Lu 等

2023 308 引用查看解读 →

SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation

Yu Xie, Xingkai Ren, Ying Qi 等

2026 1 引用查看解读 →

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning

Jiacheng Lin, Tian Wang, Kun Qian

2025 24 引用查看解读 →

Reinforced Latent Reasoning for LLM-based Recommendation

Yang Zhang, Wenxin Xu, Xiaoyan Zhao 等

2025 36 引用查看解读 →

Reasoning over Semantic IDs Enhances Generative Recommendation

Y. He, Yanfan Sun, Junfei Tan 等

2026 1 引用查看解读 →

GFlowGR: Fine-tuning Generative Recommendation Frameworks with Generative Flow Networks

Yejing Wang, Shengyu Zhou, Jinyu Lu 等

2025 2 引用查看解读 →

Learnable Item Tokenization for Generative Recommendation

Wenjie Wang, Honghui Bao, Xinyu Lin 等

2024 148 引用查看解读 →

ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

ReCast

强化学习 (Reinforcement Learning)

生成推荐 (Generative Recommendation)

信号退化 (Signal Degeneracy)

边界对比更新 (Boundary Contrastive Update)

全零组 (All-zero Group)

单命中组 (Single-hit Group)

修复机制 (Repair Mechanism)

系统效率 (System Efficiency)

稀疏命中 (Sparse-hit)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

广告推荐优化

产品推荐增强

短视频推荐

远期愿景

跨平台推荐系统

智能内容生成

原文摘要

参考文献 (20)

相关论文

Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

Efficient learning by implicit exploration in bandit problems with side observations

Necessary and sufficient conditions for universality of Kolmogorov-Arnold networks

Collocation-based Robust Physics Informed Neural Networks for time-dependent simulations of pollution propagation under thermal inversion conditions on Spitsbergen

Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

Neural Recovery of Historical Lexical Structure in Bantu Languages from Modern Data

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问