排序: 最新 热门 引用
cs.LG 2604.19730

FASTER: Value-Guided Sampling for Fast RL

FASTER方法通过在去噪过程中早期筛选动作样本,降低了计算成本,同时保持了强化学习的性能。

Perry Dong, Alexander Swerdlow, Dorsa Sadigh 等

2026-04-22 102
cs.LG 2604.18578

Bounded Ratio Reinforcement Learning

提出了有界比率强化学习(BRRL)框架,实验表明在MuJoCo等环境中性能优于PPO。

Yunke Ao, Le Chen, Bruce D. Lee 等

2026-04-21 114