排序: 最新 热门 引用
cs.AI 2605.12474

Reward Hacking in Rubric-Based Reinforcement Learning

研究提出了一种评估基于评分标准的强化学习中奖励欺骗的方法,发现即使在强验证下,奖励欺骗仍然存在。

Anas Mahmoud, MohammadHossein Rezaei, Zihao Wang 等

2026-05-13 223