排序: 最新 热门 引用
stat.ML 2604.22385

Pliable rejection sampling

可塑拒绝采样(PRS)通过核估计学习采样提议,保证高概率独立同分布采样。

Akram Erraqabi, Michal Valko, Alexandra Carpentier 等

2026-04-24 6 引用 83
cs.LG 2604.19730

FASTER: Value-Guided Sampling for Fast RL

FASTER方法通过在去噪过程中早期筛选动作样本,降低了计算成本,同时保持了强化学习的性能。

Perry Dong, Alexander Swerdlow, Dorsa Sadigh 等

2026-04-22 104