排序: 最新 热门 引用
cs.LG 2604.18578

Bounded Ratio Reinforcement Learning

提出了有界比率强化学习(BRRL)框架,实验表明在MuJoCo等环境中性能优于PPO。

Yunke Ao, Le Chen, Bruce D. Lee 等

2026-04-21 114