Model-based Bootstrap of Controlled Markov Chains

TL;DR

提出了一种基于模型的自举方法，用于有限控制马尔可夫链，提升了置信区间的覆盖率。

stat.ML 🔴 高级 2026-05-13 83 次浏览

Ziwei Su Imon Banerjee Diego Klabjan

自举方法马尔可夫链离线强化学习置信区间贝尔曼算子

核心发现

方法论

本文提出了一种基于模型的自举方法，用于有限控制马尔可夫链中的转移核，特别适用于非平稳或历史依赖的控制策略。这种方法在单一长链和离线强化学习的情景下都能保证分布一致性。通过验证贝尔曼算子的Hadamard可微性，扩展了自举分布一致性到离线策略评估和最优策略恢复的目标，生成了价值函数和Q函数的渐近有效置信区间。

关键结果

在RiverSwim问题上的实验表明，提出的自举置信区间，尤其是百分位置信区间，优于传统的插入式CLT置信区间，接近标称覆盖率（50%、90%、95%），而基线方法在小样本和短剧集长度下校准不佳。
在单链和剧集离线RL情景下，条件于离线数据集Dn，√n(M* - M)收敛于与√nM相同的高斯极限。
通过验证贝尔曼算子的Hadamard可微性，扩展了自举分布一致性到离线策略评估和最优策略恢复的目标，生成了价值函数和Q函数的渐近有效置信区间。

研究意义

该研究通过提出一种新的自举方法，解决了现有方法在处理非平稳性和历史依赖性时的局限性，特别是在离线强化学习中。这种方法不仅提高了置信区间的覆盖率，还为离线策略评估和最优策略恢复提供了新的理论支持。其结果在RiverSwim问题上验证了其有效性，显示出在小样本和短剧集长度下的显著优势。

技术贡献

本文的技术贡献在于提出了一种新的自举方法，能够处理非平稳或历史依赖的控制策略，解决了现有方法在离线强化学习中的局限性。通过验证贝尔曼算子的Hadamard可微性，将自举分布一致性扩展到离线策略评估和最优策略恢复，生成了价值函数和Q函数的渐近有效置信区间。

新颖性

该研究首次提出了一种能够处理非平稳性和历史依赖性控制策略的自举方法，填补了现有自举方法在离线强化学习中的空白。与现有方法相比，该方法能够在小样本和短剧集长度下提供更好的置信区间覆盖率。

局限性

该方法假设奖励函数已知，这在某些实际应用中可能不成立，影响了自举目标的有效性。
当前分析仅限于有限状态-动作空间，未考虑函数逼近或连续状态-动作空间的情况。
未考虑剧集长度固定而剧集数量增长的渐近情景。

未来方向

未来的研究方向包括扩展到函数逼近或连续状态-动作空间，研究奖励函数未知时的自举有效性，以及探索剧集长度固定而剧集数量增长的渐近情景。

AI 总览摘要

离线强化学习是一个重要的研究领域，但现有的方法在处理非平稳性和历史依赖性时存在显著局限性。本文提出了一种新的基于模型的自举方法，用于有限控制马尔可夫链中的转移核，特别适用于非平稳或历史依赖的控制策略。

这种方法在单一长链和离线强化学习的情景下都能保证分布一致性。通过验证贝尔曼算子的Hadamard可微性，扩展了自举分布一致性到离线策略评估和最优策略恢复的目标，生成了价值函数和Q函数的渐近有效置信区间。

在RiverSwim问题上的实验表明，提出的自举置信区间，尤其是百分位置信区间，优于传统的插入式CLT置信区间，接近标称覆盖率（50%、90%、95%），而基线方法在小样本和短剧集长度下校准不佳。

该研究通过提出一种新的自举方法，解决了现有方法在处理非平稳性和历史依赖性时的局限性，特别是在离线强化学习中。这种方法不仅提高了置信区间的覆盖率，还为离线策略评估和最优策略恢复提供了新的理论支持。

然而，该方法假设奖励函数已知，这在某些实际应用中可能不成立，影响了自举目标的有效性。此外，当前分析仅限于有限状态-动作空间，未考虑函数逼近或连续状态-动作空间的情况。未来的研究方向包括扩展到函数逼近或连续状态-动作空间，研究奖励函数未知时的自举有效性，以及探索剧集长度固定而剧集数量增长的渐近情景。

深度分析

研究背景

离线强化学习是机器学习中的一个重要领域，旨在从预先收集的数据中学习策略，而无需与环境进行实时交互。传统的自举方法在处理非平稳性和历史依赖性时存在显著局限性，特别是在离线强化学习中。这种局限性阻碍了离线策略评估和最优策略恢复的准确性，影响了相关应用的可靠性。近年来，随着强化学习在自动驾驶、机器人控制等领域的应用，解决这些问题变得尤为重要。

核心问题

现有的自举方法在处理非平稳性和历史依赖性时存在显著局限性，特别是在离线强化学习中。这种局限性阻碍了离线策略评估和最优策略恢复的准确性，影响了相关应用的可靠性。具体而言，传统方法无法保证在小样本和短剧集长度下的置信区间覆盖率，导致评估结果不稳定，影响了策略的选择和优化。

核心创新

本文提出了一种新的基于模型的自举方法，用于有限控制马尔可夫链中的转移核，特别适用于非平稳或历史依赖的控制策略。该方法通过验证贝尔曼算子的Hadamard可微性，扩展了自举分布一致性到离线策略评估和最优策略恢复的目标，生成了价值函数和Q函数的渐近有效置信区间。与现有方法相比，该方法能够在小样本和短剧集长度下提供更好的置信区间覆盖率。

方法详解

�� 提出了一种新的基于模型的自举方法，用于有限控制马尔可夫链中的转移核。
�� 通过验证贝尔曼算子的Hadamard可微性，扩展了自举分布一致性到离线策略评估和最优策略恢复的目标。
�� 生成了价值函数和Q函数的渐近有效置信区间。
�� 在RiverSwim问题上的实验验证了该方法的有效性，显示出在小样本和短剧集长度下的显著优势。

实验设计

实验设计采用了RiverSwim问题作为测试场景，该问题具有小状态空间和动作空间，奖励结构复杂，行为策略访问上游状态的频率较低。实验设置包括使用固定目标策略进行离线策略评估，以及跨越不同剧集长度的最优策略恢复。实验比较了提出的自举方法与传统的插入式CLT置信区间和剧集自举方法的表现。

结果分析

实验结果表明，提出的自举置信区间，尤其是百分位置信区间，优于传统的插入式CLT置信区间，接近标称覆盖率（50%、90%、95%），而基线方法在小样本和短剧集长度下校准不佳。该方法在处理非平稳性和历史依赖性时表现出色，显著提高了离线策略评估和最优策略恢复的准确性。

应用场景

该方法在离线强化学习中具有广泛的应用前景，特别是在自动驾驶、机器人控制等领域。通过提高置信区间的覆盖率，该方法能够增强策略评估的可靠性，支持更复杂的决策过程。此外，该方法还可以用于其他涉及非平稳性和历史依赖性的场景，如金融市场预测和医疗决策支持。

局限与展望

该方法假设奖励函数已知，这在某些实际应用中可能不成立，影响了自举目标的有效性。此外，当前分析仅限于有限状态-动作空间，未考虑函数逼近或连续状态-动作空间的情况。未来的研究方向包括扩展到函数逼近或连续状态-动作空间，研究奖励函数未知时的自举有效性，以及探索剧集长度固定而剧集数量增长的渐近情景。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。你有一套食谱，但不知道如何调整以适应不同的食材和口味。这就像离线强化学习中的问题：你有一组数据，但不知道如何处理非平稳性和历史依赖性。本文提出的方法就像一个智能助手，帮助你根据食材的变化调整食谱，确保每次都能做出美味的菜肴。通过这种方法，你可以在不确定的情况下做出更好的决策，就像在复杂的环境中选择最佳策略一样。

简单解释像给14岁少年讲一样

嘿，想象一下你在玩一个超级复杂的游戏。游戏中有很多关卡，每个关卡都有不同的挑战和奖励。你想要成为最厉害的玩家，但不知道如何在每个关卡中选择最佳策略。这篇论文就像一个超级攻略，告诉你如何在不确定的情况下做出最好的决策。它帮助你理解游戏中的每个细节，让你在每个关卡中都能取得胜利。是不是很酷？

术语表

自举方法 (Bootstrap Method)

一种统计方法，通过重复抽样来估计样本分布的性质，特别适用于复杂模型。

用于估计有限控制马尔可夫链中的转移核。

马尔可夫链 (Markov Chain)

一种随机过程，其中每个状态的转移仅依赖于前一个状态。

研究对象为有限控制马尔可夫链。

离线强化学习 (Offline Reinforcement Learning)

从预先收集的数据中学习策略，而无需与环境进行实时交互。

本文研究的主要应用场景。

置信区间 (Confidence Interval)

一种统计范围，用于估计参数的可能值，通常伴随一个置信水平。

用于评估离线策略的有效性。

贝尔曼算子 (Bellman Operator)

一种用于解决动态规划问题的数学工具，通过递归关系定义。

用于验证自举分布一致性。

非平稳性 (Nonstationarity)

指系统的统计性质随时间变化的特性。

本文处理的主要问题之一。

历史依赖性 (History Dependence)

指系统的当前状态依赖于过去的状态和动作。

本文处理的主要问题之一。

价值函数 (Value Function)

用于评估给定策略在特定状态下的期望回报。

离线策略评估的目标之一。

Q函数 (Q-Function)

用于评估给定策略在特定状态-动作对下的期望回报。

离线策略评估的目标之一。

Hadamard可微性 (Hadamard Differentiability)

一种数学性质，用于描述算子的可微性，特别是在无穷维空间中。

用于验证贝尔曼算子的性质。

开放问题这项研究留下的未解疑问

1 如何在奖励函数未知的情况下保证自举目标的有效性？当前方法假设奖励函数已知，这在某些实际应用中可能不成立。
2 如何扩展到函数逼近或连续状态-动作空间？当前分析仅限于有限状态-动作空间，未考虑更复杂的情况。
3 剧集长度固定而剧集数量增长的渐近情景如何处理？本文未考虑这种情景，可能影响自举方法的有效性。
4 如何在非平稳性和历史依赖性更复杂的场景中应用该方法？当前实验仅验证了RiverSwim问题，需进一步研究。
5 如何在更大规模的数据集上验证该方法的有效性？当前实验规模较小，需在更大规模的数据集上验证。

应用场景

近期应用

自动驾驶

通过提高置信区间的覆盖率，该方法能够增强自动驾驶系统的策略评估可靠性，支持更复杂的决策过程。

机器人控制

在机器人控制中应用该方法，可以提高策略评估的准确性，支持更复杂的任务执行。

金融市场预测

该方法可以用于金融市场预测，帮助分析师在不确定的情况下做出更好的决策。

远期愿景

医疗决策支持

通过提高置信区间的覆盖率，该方法可以用于医疗决策支持，帮助医生在不确定的情况下选择最佳治疗方案。

智能城市管理

该方法可以用于智能城市管理，帮助决策者在不确定的情况下做出更好的城市规划和管理决策。

原文摘要

We propose and analyze a model-based bootstrap for transition kernels in finite controlled Markov chains (CMCs) with possibly nonstationary or history-dependent control policies, a setting that arises naturally in offline reinforcement learning (RL) when the behavior policy generating the data is unknown. We establish distributional consistency of the bootstrap transition estimator in both a single long-chain regime and the episodic offline RL regime. The key technical tools are a novel bootstrap law of large numbers (LLN) for the visitation counts and a novel use of the martingale central limit theorem (CLT) for the bootstrap transition increments. We extend bootstrap distributional consistency to the downstream targets of offline policy evaluation (OPE) and optimal policy recovery (OPR) via the delta method by verifying Hadamard differentiability of the Bellman operators, yielding asymptotically valid confidence intervals for value and $Q$-functions. Experiments on the RiverSwim problem show that the proposed bootstrap confidence intervals (CIs), especially the percentile CIs, outperform the episodic bootstrap and plug-in CLT CIs, and are often close to nominal ($50\%$, $90\%$, $95\%$) coverage, while the baselines are poorly calibrated at small sample sizes and short episode lengths.

stat.ML cs.LG math.OC math.ST

参考文献 (20)

Martingale Limit Theory and Its Application

P. Hall, E. Lukács, Z. Birnbaum 等

1980 3970 引用 ⭐ 高影响力

Uncertainty Quantification and Exploration for Reinforcement Learning

Yi Zhu, Jing Dong, H. Lam

2019 11 引用 ⭐ 高影响力查看解读 →

The Condition of a Finite Markov Chain and Perturbation Bounds for the Limiting Probabilities

C. D. Meyer

1980 184 引用 ⭐ 高影响力

Central Limit Theorems for Transition Probabilities of Controlled Markov Chains

Ziwei Su, Imon Banerjee, Diego Klabjan

2025 ⭐ 高影响力查看解读 →

Bootstrap Methods for Markov Processes

J. Horowitz

2003 139 引用

Towards Bootstrap Learning for Object Discovery ∗

Joseph Modayil, B. Kuipers

2004 8 引用

An empirical evaluation of interval estimation for Markov decision processes

Alexander L. Strehl, M. Littman

2004 68 引用

Bootstrap Methods in Econometrics

Russell Davidson, J. MacKinnon

2004 264 引用

Bootstrap technique in cluster analysis

Anil K. Jain, J. Moreau

1987 161 引用

The Bootstrap and Edgeworth Expansion

E. Mammen

1997 1602 引用

Bootstrap Model Aggregation for Distributed Statistical Learning

J. Han, Qiang Liu

2016 12 引用查看解读 →

Bootstrapping Two-Stage Quasi-Maximum Likelihood Estimators of Time Series Models

Sílvia Gonçalves, Ulrich Hounyo, Andrew J. Patton 等

2022 7 引用

Bootstrapping Financial Time Series

E. Ruiz, Lorenzo Pascual

2002 96 引用

On the bootstrap and the trimmed mean

P. Hall, A. Padmanabhan

1992 34 引用

Bootstrap Methods: Another Look at the Jackknife

D. Hinkley

2008 9108 引用

Regenerative block bootstrap for Markov chains

P. Bertail, S. Clémençon

2006 69 引用

Bootstrap based confidence limits in principal component analysis: a case study

Hamid Babamoradi, Franciscus Winfried J van der Berg, Å. Rinnan

2013 89 引用

Some Theorems on Distribution Functions

H. Cramér, H. Wold

1936 307 引用

Nearly Optimal Latent State Decoding in Block MDPs

Yassir Jedra, Junghyun Lee, A. Proutière 等

2022 7 引用查看解读 →

Bootstrapping with Models: Confidence Intervals for Off-Policy Evaluation

Josiah P. Hanna, P. Stone, S. Niekum

2016 91 引用

Model-based Bootstrap of Controlled Markov Chains

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

自举方法 (Bootstrap Method)

马尔可夫链 (Markov Chain)

离线强化学习 (Offline Reinforcement Learning)

置信区间 (Confidence Interval)

贝尔曼算子 (Bellman Operator)

非平稳性 (Nonstationarity)

历史依赖性 (History Dependence)

价值函数 (Value Function)

Q函数 (Q-Function)

Hadamard可微性 (Hadamard Differentiability)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

自动驾驶

机器人控制

金融市场预测

远期愿景

医疗决策支持

智能城市管理

原文摘要

参考文献 (20)

相关论文

SSH-Net: A Deep Neural Network for Predicting Failure Time Distribution Functions under Competing Risks with Application to GPU Data

ProtoX-AD: Self-Explainable Time Series Anomaly Detection and Characterization

Conformal Bayes under Label Shift: Post-Hoc Calibration vs. In-Training Adaptation

Itô maps for any-step SDEs

Finite-Particle Convergence Rates for Conservative and Non-Conservative Drifting Models

A Divergence-Based Method for Weighting and Averaging Model Predictions

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问