Overcoming Selection Bias in Statistical Studies With Amortized Bayesian Inference

TL;DR

使用偏差感知的模拟推断框架，解决选择偏差问题，提升估计准确性。

stat.ML 🔴 高级 2026-04-20 28 次浏览

Jonas Arruda Sophie Chervet Paula Staudt Andreas Wieser Michael Hoelscher Isabelle Sermet-Gaudelus Nadine Binder Lulla Opatowski Jan Hasenauer

AI 阅读器 Arxiv 原文下载 PDF

选择偏差贝叶斯推断模拟推断神经后验估计高维数据

核心发现

方法论

该研究提出了一种偏差感知的模拟推断框架，通过将选择机制直接嵌入生成模拟器中，实现了无需可解似然的贝叶斯推断。该方法利用神经后验估计（NPE）来处理选择偏差问题，并通过仿真校准（SBC）和分类器两样本检验（C2ST）来评估后验校准。该框架在三种不同的统计应用中恢复了良好的后验分布，尤其是在传统基于似然的方法产生偏差估计的情况下。

关键结果

在KoCo19研究中，偏差感知NPE在1000个模拟数据集上比未调整的估计器和逆概率加权法更准确地估计了患病率，显示出其在处理非代表性抽样和结果缺失方面的优势。
在Framingham心脏研究中，偏差感知NPE在模拟数据中准确恢复了所有转变风险，与标准NPE相比，在死亡引起的选择偏差下表现更佳。
在PedCovid研究中，偏差感知NPE在复杂的随机模拟模型中实现了无偏推断，解决了由于复杂过程导致的显式似然校正不可行的问题。

研究意义

该研究的意义在于提供了一种新的方法来处理选择偏差问题，尤其是在复杂的随机模型中。传统方法依赖于可解似然，而该方法通过模拟推断克服了这一限制，使得在高维和隐变量动态系统中进行准确的参数估计成为可能。这一框架不仅在学术界具有重要意义，也为实际应用中的数据分析提供了新的工具，尤其是在流行病学和社会科学研究中。

技术贡献

技术贡献包括将选择机制嵌入生成模拟器中，从而实现了偏差感知的模拟推断。这一方法突破了传统基于似然的方法的限制，提供了新的理论保证和工程可能性。通过神经后验估计，该方法能够处理高维和隐变量动态系统中的选择偏差问题，并通过仿真校准和分类器两样本检验来验证后验分布的校准性。

新颖性

该研究首次将选择偏差问题重新表述为一个模拟问题，并通过偏差感知的模拟推断框架解决了这一问题。与现有的基于似然的方法相比，该方法不依赖于可解似然，从而能够处理更复杂的模型和选择机制。

局限性

该方法在处理极端复杂的选择机制时可能仍然存在局限性，因为模拟器的构建和训练需要大量计算资源。
在某些情况下，选择机制的建模可能不够准确，从而影响推断结果的准确性。
该框架在处理实时数据时可能面临计算效率的挑战。

未来方向

未来的研究方向包括进一步优化模拟器的构建和训练过程，以提高计算效率和准确性。此外，可以探索该框架在其他领域的应用，如金融和社会科学中的选择偏差问题。研究人员还可以开发更高效的算法来处理实时数据中的选择偏差。

AI 总览摘要

选择偏差是统计研究中的一个常见问题，尤其是在流行病学和调查研究中。传统的校正方法依赖于可解似然，这限制了它们在复杂随机模型中的适用性。本文提出了一种偏差感知的模拟推断框架，通过将选择机制直接嵌入生成模拟器中，实现了无需可解似然的贝叶斯推断。

该框架利用神经后验估计（NPE）来处理选择偏差问题，并通过仿真校准（SBC）和分类器两样本检验（C2ST）来评估后验校准。通过在生成模拟器中嵌入选择机制，该方法能够在不需要可解似然的情况下实现偏差感知的贝叶斯推断。

在实验中，该方法在三种不同的统计应用中恢复了良好的后验分布，尤其是在传统基于似然的方法产生偏差估计的情况下。在KoCo19研究中，偏差感知NPE在1000个模拟数据集上比未调整的估计器和逆概率加权法更准确地估计了患病率。

在Framingham心脏研究中，偏差感知NPE在模拟数据中准确恢复了所有转变风险，与标准NPE相比，在死亡引起的选择偏差下表现更佳。在PedCovid研究中，偏差感知NPE在复杂的随机模拟模型中实现了无偏推断，解决了由于复杂过程导致的显式似然校正不可行的问题。

这一研究不仅在学术界具有重要意义，也为实际应用中的数据分析提供了新的工具，尤其是在流行病学和社会科学研究中。未来的研究方向包括进一步优化模拟器的构建和训练过程，以提高计算效率和准确性。

深度分析

研究背景

选择偏差是统计研究中的一个常见问题，尤其是在流行病学和调查研究中。选择偏差的产生是因为数据集中某些观察值的进入概率依赖于与感兴趣量相关的变量，这导致了估计和不确定性量化的系统性扭曲。传统的校正方法，如逆概率加权和显式基于似然的选择过程模型，依赖于可解似然，这限制了它们在复杂随机模型中的适用性。随着统计模型的复杂化，选择偏差的校正成为一个主要的瓶颈。

核心问题

选择偏差问题的核心在于数据集中某些观察值的进入概率依赖于与感兴趣量相关的变量，导致估计和不确定性量化的系统性扭曲。传统的校正方法依赖于可解似然，这限制了它们在复杂随机模型中的适用性。如何在不依赖于可解似然的情况下实现偏差感知的贝叶斯推断，是一个重要且具有挑战性的问题。

核心创新

本文的核心创新在于将选择偏差问题重新表述为一个模拟问题，并通过偏差感知的模拟推断框架解决了这一问题。具体而言，该框架通过将选择机制直接嵌入生成模拟器中，实现了无需可解似然的贝叶斯推断。这一方法利用神经后验估计来处理选择偏差问题，并通过仿真校准和分类器两样本检验来验证后验分布的校准性。

方法详解

�� 将选择机制嵌入生成模拟器中，实现偏差感知的模拟推断。
�� 利用神经后验估计（NPE）来处理选择偏差问题。
�� 通过仿真校准（SBC）和分类器两样本检验（C2ST）来评估后验校准。
�� 在生成模拟器中嵌入选择机制，实现了无需可解似然的贝叶斯推断。
�� 在三种不同的统计应用中验证了该方法的有效性。

实验设计

实验设计包括在三种不同的统计应用中验证该方法的有效性。具体而言，在KoCo19研究中，偏差感知NPE在1000个模拟数据集上比未调整的估计器和逆概率加权法更准确地估计了患病率。在Framingham心脏研究中，偏差感知NPE在模拟数据中准确恢复了所有转变风险。在PedCovid研究中，偏差感知NPE在复杂的随机模拟模型中实现了无偏推断。

结果分析

实验结果表明，偏差感知NPE在处理选择偏差问题上表现优异。在KoCo19研究中，偏差感知NPE在1000个模拟数据集上比未调整的估计器和逆概率加权法更准确地估计了患病率。在Framingham心脏研究中，偏差感知NPE在模拟数据中准确恢复了所有转变风险。在PedCovid研究中，偏差感知NPE在复杂的随机模拟模型中实现了无偏推断。

应用场景

该方法在流行病学和社会科学研究中具有广泛的应用前景，尤其是在处理选择偏差问题时。通过模拟推断，该方法能够在不依赖于可解似然的情况下实现偏差感知的贝叶斯推断，从而在高维和隐变量动态系统中进行准确的参数估计。

局限与展望

该方法在处理极端复杂的选择机制时可能仍然存在局限性，因为模拟器的构建和训练需要大量计算资源。在某些情况下，选择机制的建模可能不够准确，从而影响推断结果的准确性。该框架在处理实时数据时可能面临计算效率的挑战。

通俗解读非专业人士也能看懂

想象你在一个大型超市购物。这个超市有很多商品，但并不是所有的商品都能被你看到，因为有些商品被放在了你看不到的地方。选择偏差就像是你在购物时只能看到某些商品，而不是全部商品。为了更好地了解超市的商品种类，你需要一种方法来估计那些你看不到的商品。本文提出的方法就像是一个智能购物助手，它可以通过观察你看到的商品，推断出那些你看不到的商品。这个助手利用了一种叫做神经后验估计的技术，它就像是一个聪明的算法，能够在不需要知道所有商品信息的情况下，帮助你更准确地了解超市的商品种类。通过这种方式，你可以更全面地了解超市的商品，而不再受到选择偏差的影响。

简单解释像给14岁少年讲一样

嘿，小伙伴！你知道吗，有时候我们在做调查时，并不是所有的数据都能被我们看到，这就像你在学校里做实验时，有些数据被老师藏起来了一样。选择偏差就是这样的问题，它让我们看到的数据不完整。为了更好地解决这个问题，科学家们发明了一种叫做偏差感知的模拟推断的方法。想象一下，这就像是一个超级聪明的侦探，它可以通过分析你看到的数据，推断出那些你看不到的数据。这个侦探使用了一种叫做神经后验估计的技术，就像是一个聪明的算法，能够帮助我们更准确地了解整个实验的结果。这样一来，我们就能更全面地了解实验的情况，而不再受到选择偏差的影响。是不是很酷呢？

术语表

选择偏差 (Selection Bias)

选择偏差是指数据集中某些观察值的进入概率依赖于与感兴趣量相关的变量，导致估计和不确定性量化的系统性扭曲。

在流行病学和调查研究中，选择偏差是一个常见问题。

贝叶斯推断 (Bayesian Inference)

贝叶斯推断是一种统计推断方法，通过使用贝叶斯定理来更新对未知参数的信念。

本文利用贝叶斯推断来处理选择偏差问题。

神经后验估计 (Neural Posterior Estimation)

神经后验估计是一种利用神经网络来近似后验分布的方法。

本文使用神经后验估计来实现偏差感知的模拟推断。

仿真校准 (Simulation-Based Calibration)

仿真校准是一种通过模拟来评估统计模型校准性的方法。

本文利用仿真校准来验证后验分布的校准性。

分类器两样本检验 (Classifier Two-Sample Test)

分类器两样本检验是一种通过训练分类器来评估两个样本是否来自同一分布的方法。

本文利用分类器两样本检验来评估后验分布的校准性。

逆概率加权 (Inverse Probability Weighting)

逆概率加权是一种通过加权来校正选择偏差的方法。

在KoCo19研究中，逆概率加权被用作基线方法。

显式基于似然的方法 (Likelihood-Based Methods)

显式基于似然的方法是指依赖于可解似然来进行统计推断的方法。

传统的选择偏差校正方法依赖于显式基于似然的方法。

隐变量 (Latent Variables)

隐变量是指在统计模型中未被直接观察到的变量。

本文的方法能够处理高维和隐变量动态系统中的选择偏差问题。

高维数据 (High-Dimensional Data)

高维数据是指具有大量变量的数据集，通常需要复杂的统计方法来分析。

本文的方法能够处理高维数据中的选择偏差问题。

模拟推断 (Simulation-Based Inference)

模拟推断是一种通过模拟来进行统计推断的方法，通常用于处理不可解似然的问题。

本文提出了一种偏差感知的模拟推断框架。

开放问题这项研究留下的未解疑问

1 如何在极端复杂的选择机制下进一步提高模拟器的构建和训练效率？目前的方法在处理极端复杂的选择机制时可能仍然存在局限性，因为模拟器的构建和训练需要大量计算资源。
2 如何在实时数据中应用偏差感知的模拟推断框架？该框架在处理实时数据时可能面临计算效率的挑战。
3 如何在其他领域中应用该框架，如金融和社会科学中的选择偏差问题？目前的研究主要集中在流行病学和社会科学研究中。
4 如何进一步优化仿真校准和分类器两样本检验的性能？这些方法在验证后验分布的校准性方面发挥了重要作用，但仍有优化空间。
5 如何在选择机制建模不够准确的情况下提高推断结果的准确性？选择机制的建模可能不够准确，从而影响推断结果的准确性。

应用场景

近期应用

流行病学研究

该方法可以用于流行病学研究中的选择偏差校正，帮助研究人员更准确地估计疾病的流行率和传播参数。

社会科学调查

在社会科学调查中，该方法可以用于校正由于抽样偏差导致的估计偏差，提供更可靠的调查结果。

医学研究

在医学研究中，该方法可以用于校正由于选择偏差导致的估计偏差，帮助研究人员更准确地评估治疗效果。

远期愿景

金融数据分析

该方法可以应用于金融数据分析中的选择偏差校正，帮助分析师更准确地评估金融市场的风险和回报。

实时数据处理

未来，该方法可以用于实时数据处理中的选择偏差校正，帮助研究人员更快地获得准确的分析结果。

原文摘要

Selection bias arises when the probability that an observation enters a dataset depends on variables related to the quantities of interest, leading to systematic distortions in estimation and uncertainty quantification. For example, in epidemiological or survey settings, individuals with certain outcomes may be more likely to be included, resulting in biased prevalence estimates with potentially substantial downstream impact. Classical corrections, such as inverse-probability weighting or explicit likelihood-based models of the selection process, rely on tractable likelihoods, which limits their applicability in complex stochastic models with latent dynamics or high-dimensional structure. Simulation-based inference enables Bayesian analysis without tractable likelihoods but typically assumes missingness at random and thus fails when selection depends on unobserved outcomes or covariates. Here, we develop a bias-aware simulation-based inference framework that explicitly incorporates selection into neural posterior estimation. By embedding the selection mechanism directly into the generative simulator, the approach enables amortized Bayesian inference without requiring tractable likelihoods. This recasting of selection bias as part of the simulation process allows us to both obtain debiased estimates and explicitly test for the presence of bias. The framework integrates diagnostics to detect discrepancies between simulated and observed data and to assess posterior calibration. The method recovers well-calibrated posterior distributions across three statistical applications with diverse selection mechanisms, including settings in which likelihood-based approaches yield biased estimates. These results recast the correction of selection bias as a simulation problem and establish simulation-based inference as a practical and testable strategy for parameter estimation under selection bias.

stat.ML cs.LG stat.ME

参考文献 (20)

Diffusion Models in Simulation-Based Inference: A Tutorial Review

J. Arruda, Niels Bracher, Ullrich Köthe 等

2025 8 引用 ⭐ 高影响力查看解读 →

Flow Matching for Scalable Simulation-Based Inference

Maximilian Dax, J. Wildberger, Simon Buchholz 等

2023 114 引用 ⭐ 高影响力查看解读 →

Protocol of a population-based prospective COVID-19 cohort study Munich, Germany (KoCo19)

K. Radon, E. Saathoff, M. Pritsch 等

2020 52 引用 ⭐ 高影响力

Statistical Analysis With Missing Data

Subir Ghosh

1988 5179 引用 ⭐ 高影响力

A multi-state model based reanalysis of the Framingham Heart Study: Is dementia incidence really declining?

N. Binder, J. Balmford, M. Schumacher

2019 16 引用 ⭐ 高影响力

Validating Bayesian Inference Algorithms with Simulation-Based Calibration

Sean Talts, M. Betancourt, Daniel P. Simpson 等

2018 344 引用 ⭐ 高影响力查看解读 →

BayesFlow 2.0: Multi-Backend Amortized Bayesian Inference in Python

Lars Kühmichel, Jerry M. Huang, Valentin Pratz 等

2026 1 引用 ⭐ 高影响力

Flexible statistical inference for mechanistic models of neural dynamics

Jan-Matthis Lueckmann, P. J. Gonçalves, Giacomo Bassetto 等

2017 311 引用查看解读 →

Sensitivity-Aware Amortized Bayesian Inference

Lasse Elsemüller, Hans Olischläger, M. Schmitt 等

2023 24 引用查看解读 →

Head-to-head evaluation of seven different seroassays including direct viral neutralisation in a representative cohort for SARS-CoV-2

Laura Olbrich, N. Castelletti, Yannik Schälte 等

2021 26 引用

Estimating prevalence from the results of a screening test.

W. Rogan, B. Gladen

1978 993 引用

Revisiting Classifier Two-Sample Tests

David Lopez-Paz, M. Oquab

2016 482 引用查看解读 →

Robust adaptive distance functions for approximate Bayesian inference on outlier-corrupted data

Yannik Schälte, Emad Alamoudi, J. Hasenauer

2021 8 引用

Inference for Non‐random Samples

J. Copas, H. Li

1997 359 引用

SGDR: Stochastic Gradient Descent with Warm Restarts

I. Loshchilov, F. Hutter

2016 10235 引用查看解读 →

Bayesian Approaches for Missing Not at Random Outcome Data: The Role of Identifying Restrictions.

A. Linero, M. Daniels

2018 56 引用

Does Unsupervised Domain Adaptation Improve the Robustness of Amortized Bayesian Inference? A Systematic Evaluation

Lasse Elsemuller, Valentin Pratz, Mischa von Krause 等

2025 12 引用查看解读 →

SARS-CoV-2 incubation period across variants of concern, individual factors, and circumstances of infection in France: a case series analysis from the ComCor study

S. Galmiche, T. Cortier, Tiffany Charmet 等

2023 66 引用

Deep Sets

M. Zaheer, Satwik Kottur, Siamak Ravanbakhsh 等

2017 2859 引用查看解读 →

A Generalization of Sampling Without Replacement from a Finite Universe

D. Horvitz, D. Thompson

1952 4785 引用

Overcoming Selection Bias in Statistical Studies With Amortized Bayesian Inference

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

选择偏差 (Selection Bias)

贝叶斯推断 (Bayesian Inference)

神经后验估计 (Neural Posterior Estimation)

仿真校准 (Simulation-Based Calibration)

分类器两样本检验 (Classifier Two-Sample Test)

逆概率加权 (Inverse Probability Weighting)

显式基于似然的方法 (Likelihood-Based Methods)

隐变量 (Latent Variables)

高维数据 (High-Dimensional Data)

模拟推断 (Simulation-Based Inference)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

流行病学研究

社会科学调查

医学研究

远期愿景

金融数据分析

实时数据处理

原文摘要

参考文献 (20)

相关论文

A Divergence-Based Method for Weighting and Averaging Model Predictions

CLVAE: A Variational Autoencoder for Long-Term Customer Revenue Forecasting

Mixed Membership sub-Gaussian Models

Explanation of Dynamic Physical Field Predictions using WassersteinGrad: Application to Autoregressive Weather Forecasting

FedSPDnet: Geometry-Aware Federated Deep Learning with SPDnet

Pack only the essentials: Adaptive dictionary learning for kernel ridge regression

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问