Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders

TL;DR

提出TAWin方法，通过WPAUC优化RL推荐系统，提升Top-K性能。

cs.IR 🔴 高级 2026-04-24 26 次浏览

Wentao Shi Qifan Wang Chen Chen Fei Liu Dongfang Liu Xu Liu Wanli Ma Junfeng Pan Linhong Zhu Fuli Feng

强化学习推荐系统部分AUC 大语言模型负样本优化

核心发现

方法论

本文提出了一种新的RL优化方法，称为TAWin，通过引入窗口化部分AUC（WPAUC）来优化大语言模型（LLM）推荐系统。TAWin方法通过在负样本选择中使用束搜索而非随机采样，调整优化目标以更好地对齐Top-K指标。具体来说，TAWin通过在一个特定的假阳性率窗口内重新加权负样本，从而显著提升推荐系统的Top-K性能。

关键结果

在四个真实数据集上，TAWin方法在Recall@K和NDCG@K指标上均显著优于现有基线方法。例如，在Yelp数据集上，TAWin在Recall@3指标上达到了0.0360，相较于ReRe的0.0342有显著提升。
通过实验验证，TAWin方法在不同的RL优化算法和不同的项目编码策略下均表现出色，表明其具有良好的通用性和扩展性。
TAWin方法通过引入WPAUC，能够在不同的Top-K目标下灵活调整优化方向，实验结果显示其在不同的Top-K设置下均能达到最佳性能。

研究意义

本研究通过引入WPAUC和TAWin方法，为RL优化的LLM推荐系统提供了新的理论基础和实践工具。通过更好地对齐Top-K指标，研究不仅在学术界提供了新的优化思路，也为工业界的推荐系统优化提供了实用的方法。特别是在大规模在线平台上，TAWin方法能够显著提升用户满意度和系统效率。

技术贡献

本文的技术贡献主要体现在两个方面：首先，提出了WPAUC这一新的优化指标，能够在特定的假阳性率窗口内评估排名质量，从而更好地对齐Top-K目标。其次，TAWin方法通过软阈值调整窗口重新加权负样本，避免了传统硬截断方法的样本效率低下和梯度方差增大的问题。

新颖性

TAWin方法的创新之处在于首次将WPAUC引入RL优化，提供了对Top-K性能的显式控制能力。与现有方法相比，TAWin不仅在理论上提供了更好的Top-K对齐性，而且在实践中通过软阈值调整窗口重新加权负样本，显著提升了推荐系统的性能。

局限性

TAWin方法在计算复杂度上有所增加，特别是在大规模数据集上，可能需要更多的计算资源。
在某些极端的Top-K设置下，TAWin方法的性能提升可能不如预期。
方法的参数选择对性能有较大影响，需要进行仔细的调参。

未来方向

未来的研究可以在以下几个方面进行扩展：首先，探索TAWin方法在其他类型的推荐系统中的应用，如社交网络推荐或视频推荐。其次，研究如何进一步降低TAWin方法的计算复杂度，以便在更大规模的数据集上应用。最后，结合公平性、多样性和透明性等因素，进一步完善推荐系统的优化目标。

AI 总览摘要

近年来，随着大语言模型（LLM）的快速发展，基于LLM的推荐系统成为一种新兴的研究方向。然而，现有的推荐系统在优化Top-K性能方面仍然存在挑战，特别是在如何有效利用负样本进行优化方面。

本文提出了一种新的强化学习（RL）优化方法，称为TAWin，通过引入窗口化部分AUC（WPAUC）来优化LLM推荐系统。TAWin方法通过在负样本选择中使用束搜索而非随机采样，调整优化目标以更好地对齐Top-K指标。具体来说，TAWin通过在一个特定的假阳性率窗口内重新加权负样本，从而显著提升推荐系统的Top-K性能。

TAWin方法的核心技术原理在于通过软阈值调整窗口重新加权负样本，避免了传统硬截断方法的样本效率低下和梯度方差增大的问题。通过引入WPAUC这一新的优化指标，TAWin能够在特定的假阳性率窗口内评估排名质量，从而更好地对齐Top-K目标。

在实验中，TAWin方法在四个真实数据集上表现出色，在Recall@K和NDCG@K指标上均显著优于现有基线方法。特别是在Yelp数据集上，TAWin在Recall@3指标上达到了0.0360，相较于ReRe的0.0342有显著提升。此外，TAWin方法在不同的RL优化算法和不同的项目编码策略下均表现出色，表明其具有良好的通用性和扩展性。

然而，TAWin方法在计算复杂度上有所增加，特别是在大规模数据集上，可能需要更多的计算资源。未来的研究可以在降低计算复杂度、扩展应用场景以及结合公平性、多样性和透明性等因素方面进行探索。

深度分析

研究背景

推荐系统在现代信息社会中扮演着重要角色，帮助用户在海量信息中找到最相关的内容。传统的推荐系统多基于协同过滤和内容过滤方法，但随着大数据和人工智能技术的发展，基于大语言模型（LLM）的推荐系统逐渐兴起。这些系统通过生成式模型直接生成推荐结果，具有更强的语义理解能力和个性化推荐能力。然而，如何有效优化这些系统的Top-K性能仍然是一个挑战，特别是在负样本选择和优化目标对齐方面。

核心问题

现有的推荐系统在优化Top-K性能时面临几个核心问题。首先，传统的AUC优化目标与Top-K指标不完全对齐，导致推荐结果的实际效果不理想。其次，负样本的选择对优化效果有重要影响，随机采样的负样本往往缺乏信息量，难以提供有效的训练信号。最后，如何在优化过程中有效控制计算复杂度也是一个亟待解决的问题。

核心创新

本文的核心创新在于提出了TAWin方法，通过引入WPAUC来优化RL推荐系统。具体创新点包括：

1) 引入WPAUC作为新的优化指标，能够在特定的假阳性率窗口内评估排名质量，从而更好地对齐Top-K目标。

2) 通过软阈值调整窗口重新加权负样本，避免了传统硬截断方法的样本效率低下和梯度方差增大的问题。

3) 在负样本选择中使用束搜索而非随机采样，调整优化目标以更好地对齐Top-K指标。

方法详解

TAWin方法的实现包括以下几个关键步骤：

�� 使用束搜索替代随机采样，从而选择更具信息量的负样本。
�� 引入WPAUC作为优化指标，通过在特定假阳性率窗口内评估排名质量来对齐Top-K目标。
�� 采用软阈值调整窗口重新加权负样本，避免样本效率低下和梯度方差增大的问题。
�� 将TAWin方法应用于不同的RL优化算法和项目编码策略，验证其通用性和扩展性。

实验设计

实验设计包括在四个真实数据集（如Yelp、Toys等）上测试TAWin方法的性能。基线方法包括传统的序列推荐模型和现有的LLM推荐模型。评估指标为Recall@K和NDCG@K，关键超参数包括束搜索宽度和WPAUC的窗口参数。实验还包括消融研究，以验证TAWin方法中各个组件的贡献。

结果分析

实验结果显示，TAWin方法在所有测试数据集上均显著优于基线方法。在Yelp数据集上，TAWin在Recall@3指标上达到了0.0360，相较于ReRe的0.0342有显著提升。消融研究表明，WPAUC和软阈值调整窗口对性能提升起到了关键作用。此外，TAWin方法在不同的RL优化算法和项目编码策略下均表现出色，表明其具有良好的通用性和扩展性。

应用场景

TAWin方法可直接应用于大规模在线平台的推荐系统中，如电商网站、社交网络和视频平台。通过优化Top-K性能，TAWin能够显著提升用户满意度和系统效率。此外，TAWin方法还可用于其他需要精确排名的场景，如广告投放和搜索引擎优化。

局限与展望

TAWin方法在计算复杂度上有所增加，特别是在大规模数据集上，可能需要更多的计算资源。此外，方法的参数选择对性能有较大影响，需要进行仔细的调参。在某些极端的Top-K设置下，TAWin方法的性能提升可能不如预期。未来的研究可以在降低计算复杂度、扩展应用场景以及结合公平性、多样性和透明性等因素方面进行探索。

通俗解读非专业人士也能看懂

想象一下你在一家大型超市购物。超市有成千上万种商品，而你只想买到最适合你的几样。传统的推荐系统就像一个普通的店员，他可能会根据你的购物历史给你推荐几样商品，但这些推荐可能并不总是最合适的。TAWin方法就像一个经验丰富的店员，他不仅了解你的购物偏好，还能根据超市里其他顾客的选择来优化他的推荐策略。通过使用一种叫做WPAUC的新方法，这位店员能够在一个特定的范围内评估商品的受欢迎程度，从而更好地推荐给你最合适的商品。此外，这位店员还会根据商品的受欢迎程度来调整他的推荐策略，确保你总是能买到最合适的商品。这样一来，你的购物体验就会大大提升，因为你总能买到最适合你的商品，而不必在成千上万种商品中挑选。

简单解释像给14岁少年讲一样

嘿，小伙伴！想象一下你在玩一个超级酷的游戏，游戏里有很多任务，而你的目标是找到最好的装备来打败敌人。传统的推荐系统就像一个普通的游戏助手，他会根据你之前的选择给你推荐装备，但这些装备可能并不总是最强的。TAWin方法就像一个超级聪明的游戏助手，他不仅知道你喜欢什么，还能根据其他玩家的选择来优化他的推荐策略。通过使用一种叫做WPAUC的新方法，这位助手能够在一个特定的范围内评估装备的强度，从而更好地推荐给你最强的装备。此外，这位助手还会根据装备的强度来调整他的推荐策略，确保你总是能拿到最强的装备。这样一来，你的游戏体验就会大大提升，因为你总能拿到最强的装备，轻松打败敌人！

术语表

强化学习 (Reinforcement Learning)

一种机器学习方法，通过与环境交互来学习策略，以最大化累积奖励。

本文中用于优化推荐系统的策略。

大语言模型 (Large Language Model)

一种基于深度学习的模型，能够生成和理解自然语言。

用于生成推荐结果的核心技术。

部分AUC (Partial AUC)

在特定的假阳性率范围内评估模型性能的指标。

用于优化Top-K性能的关键指标。

束搜索 (Beam Search)

一种启发式搜索算法，通过在每一步选择多个最优候选项来找到最优解。

用于选择更具信息量的负样本。

假阳性率 (False Positive Rate)

在所有负样本中被错误分类为正样本的比例。

用于定义WPAUC的窗口范围。

Recall@K

在Top-K推荐中，实际被推荐的正样本占所有正样本的比例。

用于评估推荐系统性能的指标。

NDCG@K

归一化折损累积增益，用于评估推荐系统的排名质量。

用于评估推荐系统性能的指标。

软阈值调整 (Soft Threshold Adjustment)

一种平滑的样本选择方法，通过调整阈值来避免样本效率低下。

用于TAWin方法中的负样本重新加权。

消融研究 (Ablation Study)

通过移除或替换模型的某些组件来评估其对整体性能的影响。

用于验证TAWin方法中各个组件的贡献。

超参数 (Hyperparameter)

在模型训练过程中需要预先设定的参数，影响模型的性能。

在实验中需要调优的参数。

开放问题这项研究留下的未解疑问

1 如何在更大规模的数据集上有效应用TAWin方法？目前的方法在计算复杂度上有所增加，特别是在大规模数据集上，可能需要更多的计算资源。未来的研究可以探索如何降低计算复杂度，以便在更大规模的数据集上应用。
2 如何结合公平性、多样性和透明性等因素来进一步完善推荐系统的优化目标？目前的研究主要关注Top-K性能，未来可以在这些方面进行探索，以提高推荐系统的整体性能和用户满意度。
3 TAWin方法在某些极端的Top-K设置下的性能提升可能不如预期。未来的研究可以探索如何在这些设置下进一步优化方法的性能。
4 如何在其他类型的推荐系统中应用TAWin方法？例如，社交网络推荐或视频推荐。未来的研究可以探索这些应用场景，以验证TAWin方法的通用性。
5 方法的参数选择对性能有较大影响，需要进行仔细的调参。未来的研究可以探索自动化的参数调优方法，以提高方法的易用性和性能。

应用场景

近期应用

电商平台推荐

通过优化Top-K性能，TAWin方法能够显著提升电商平台的推荐效果，增加用户购买率和满意度。

社交网络推荐

在社交网络中应用TAWin方法，可以更精准地推荐用户感兴趣的内容，增加用户的活跃度和平台粘性。

视频平台推荐

在视频平台中应用TAWin方法，可以更好地推荐用户感兴趣的视频内容，增加观看时长和用户留存率。

远期愿景

个性化广告投放

通过优化广告推荐的Top-K性能，TAWin方法可以显著提升广告的点击率和转化率，增加广告收入。

搜索引擎优化

在搜索引擎中应用TAWin方法，可以更精准地推荐用户感兴趣的搜索结果，提升搜索体验和用户满意度。

原文摘要

Reinforcement learning (RL) effectively optimizes Large Language Model (LLM)-based recommenders by contrasting positive and negative items. Empirically, training with beam-search negatives consistently outperforms random negatives, yet the mechanism is not well understood. We address this gap by analyzing the induced optimization objective and show that: (i) Under binary reward feedback, optimizing LLM recommenders with Group Relative Policy Optimization (GRPO) is theoretically equivalent to maximizing the Area Under the ROC Curve (AUC), which is often misaligned with Top-$K$ recommendation; and (ii) Replacing random negatives with beam-search negatives reshapes the objective toward partial AUC, improving alignment with Top-$K$ metrics. Motivated by this perspective, we introduce Windowed Partial AUC (WPAUC), which constrains the false positive rate (FPR) to a window [$α,α+d$] to more directly align with Top-$K$ metrics. We further propose an efficient Threshold-Adjusted Windowed reweighting (TAWin) RL method for its optimization, enabling explicit control over the targeted Top-$K$ performance. Experiments on four real-world datasets validate the theory and deliver consistent state-of-the-art performance.

cs.IR

参考文献 (20)

MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation

Xiaoyu Kong, Leheng Sheng, Junfei Tan 等

2025 8 引用 ⭐ 高影响力查看解读 →

On the Theories Behind Hard Negative Sampling for Recommendation

Wentao Shi, Jiawei Chen, Fuli Feng 等

2023 66 引用 ⭐ 高影响力查看解读 →

A Bi-Step Grounding Paradigm for Large Language Models in Recommendation Systems

Keqin Bao, Jizhi Zhang, Wenjie Wang 等

2023 167 引用 ⭐ 高影响力查看解读 →

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Adam Suma, Sam Dauncey

2025 2557 引用

Group Sequence Policy Optimization

Chujie Zheng, Shixuan Liu, Mingze Li 等

2025 404 引用查看解读 →

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations

Jiaqi Zhai, Lucy Liao, Xing Liu 等

2024 193 引用查看解读 →

Recommender Systems with Generative Retrieval

Shashank Rajput, Nikhil Mehta, Anima Singh 等

2023 245 引用查看解读 →

Two-way partial AUC and its properties

Hanfang Yang, Kun Lu, Xiang Lyu 等

2015 36 引用查看解读 →

Lower-Left Partial AUC: An Effective and Efficient Optimization Metric for Recommendation

Wentao Shi, Chenxu Wang, Fuli Feng 等

2024 13 引用查看解读 →

Reinforced Preference Optimization for Recommendation

Junfei Tan, Yuxin Chen, An Zhang 等

2025 2 引用查看解读 →

Word2vec applied to recommendation: hyperparameters matter

Hugo Caselles-Dupré, Florian Lesaint, Jimena Royo-Letelier

2018 168 引用查看解读 →

OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment

Jiaxin Deng, Shiyao Wang, Kuo Cai 等

2025 181 引用查看解读 →

Adapting Large Language Models by Integrating Collaborative Semantics for Recommendation

Bowen Zheng, Yupeng Hou, Hongyu Lu 等

2023 308 引用查看解读 →

On Sampling Strategies for Neural Network-based Collaborative Filtering

Ting Chen, Yizhou Sun, Yue Shi 等

2017 251 引用查看解读 →

On Softmax Direct Preference Optimization for Recommendation

Yuxin Chen, Junfei Tan, An Zhang 等

2024 84 引用查看解读 →

Is ChatGPT a Good Recommender? A Preliminary Study

Junling Liu, Chaoyong Liu, Renjie Lv 等

2023 386 引用查看解读 →

SVMpAUCtight: a new support vector method for optimizing partial AUC based on a tight convex upper bound

H. Narasimhan, S. Agarwal

2013 51 引用

BPR: Bayesian Personalized Ranking from Implicit Feedback

Steffen Rendle, Christoph Freudenthaler, Zeno Gantner 等

2009 6536 引用查看解读 →

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Qiying Yu, Zheng Zhang, Ruofei Zhu 等

2025 1591 引用查看解读 →

Negative Sampling in Recommendation: A Survey and Future Directions

Haokai Ma, Ruobing Xie, Lei Meng 等

2024 18 引用查看解读 →

Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

强化学习 (Reinforcement Learning)

大语言模型 (Large Language Model)

部分AUC (Partial AUC)

束搜索 (Beam Search)

假阳性率 (False Positive Rate)

Recall@K

NDCG@K

软阈值调整 (Soft Threshold Adjustment)

消融研究 (Ablation Study)

超参数 (Hyperparameter)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

电商平台推荐

社交网络推荐

视频平台推荐

远期愿景

个性化广告投放

搜索引擎优化

原文摘要

参考文献 (20)

相关论文

Aligning Dense Retrievers with LLM Utility via DistillationAligning Dense Retrievers with LLM Utility via Distillation

Can QPP Choose the Right Query Variant? Evaluating Query Variant Selection for RAG Pipelines

Rethinking Semantic Collaborative Integration: Why Alignment Is Not Enough

ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression

ECLASS-Augmented Semantic Product Search for Electronic Components

Diagnosable ColBERT: Debugging Late-Interaction Retrieval Models Using a Learned Latent Space as Reference

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问