Agentic Forecasting using Sequential Bayesian Updating of Linguistic Beliefs

TL;DR

BLF系统通过序列贝叶斯更新语言信念，在ForecastBench基准上实现了最先进的二元预测性能。

cs.AI 🔴 高级 2026-04-21 31 次浏览

Kevin Murphy

贝叶斯更新语言模型预测机器学习数据分析

核心发现

方法论

本文提出了一种名为BLF（贝叶斯语言预测器）的系统，用于二元预测。该系统基于三个核心思想：1）贝叶斯语言信念状态，结合数值概率估计和自然语言证据总结；2）分层多次试验聚合，通过logit空间收缩和数据依赖先验结合独立试验结果；3）分层校准，使用Platt缩放和分层先验避免对极端预测的过度收缩。实验显示，BLF在ForecastBench基准上超越了所有顶级公开方法。

关键结果

在ForecastBench的400个回测问题中，BLF系统的表现优于所有顶级公开方法，包括Cassi、GPT-5、Grok 4.20和Foresight-32B。具体而言，BLF在市场问题上的困难调整Brier指数（ABI）为94.8，而Foresight-32B为91.4。
消融研究表明，结构化信念状态的去除使Brier指数下降5.1，比去除网络搜索（下降3.4）影响更大。
BLF在市场问题上的表现显著优于人群基线，所有其他方法在统计上与直接返回市场价格无显著差异。

研究意义

BLF系统在二元预测领域取得了突破性进展，尤其是在处理具有偏斜基准率的极端预测时。通过使用分层校准和多次试验聚合，BLF不仅提高了预测的准确性，还在处理不同数据集时显示出更好的适应性。这一研究为未来的预测系统提供了新的思路，特别是在如何有效整合自然语言处理和概率推断方面。

技术贡献

BLF系统的技术贡献在于其创新性地结合了贝叶斯语言信念状态和分层校准方法。这种方法不仅在理论上提供了新的保证，还在工程上开辟了新的可能性。与现有的最先进方法相比，BLF在处理复杂的预测问题时表现出更高的准确性和鲁棒性。

新颖性

BLF系统首次将贝叶斯更新与自然语言处理相结合，用于二元预测。这一创新在于其能够动态更新信念状态，并通过分层校准有效处理极端预测，与传统方法相比，提供了更高的预测准确性。

局限性

BLF系统在处理完全未知的事件时可能表现不佳，因为其依赖于历史数据和语言模型的知识。
由于系统复杂性较高，计算成本可能较大，尤其是在多次试验聚合时。
在某些特定数据集上，分层收缩可能会导致性能下降。

未来方向

未来的研究方向包括：1）扩展BLF系统以处理多类别预测问题；2）优化系统的计算效率，减少计算成本；3）在更多的实际应用场景中进行测试，以验证其广泛适用性。

AI 总览摘要

在预测未来事件的概率时，传统方法往往面临许多挑战，尤其是在处理复杂的地缘政治、金融和公共健康问题时。现有的预测系统通常依赖于大量的历史数据和复杂的数学模型，但这些方法在处理动态变化的环境时往往显得力不从心。

BLF（贝叶斯语言预测器）系统通过结合贝叶斯更新和自然语言处理，为二元预测提供了一种全新的解决方案。该系统的核心在于其能够动态更新的贝叶斯语言信念状态，这种状态结合了数值概率估计和自然语言证据总结，使得系统能够在每一步迭代中进行更准确的预测。

BLF系统的技术原理包括三个关键部分：1）贝叶斯语言信念状态，用于动态更新预测信念；2）分层多次试验聚合，通过logit空间收缩和数据依赖先验结合独立试验结果；3）分层校准，使用Platt缩放和分层先验避免对极端预测的过度收缩。这些技术的结合使得BLF在处理复杂预测问题时表现出色。

在ForecastBench基准的400个回测问题中，BLF系统的表现优于所有顶级公开方法，包括Cassi、GPT-5、Grok 4.20和Foresight-32B。具体而言，BLF在市场问题上的困难调整Brier指数（ABI）为94.8，而Foresight-32B为91.4。这一结果显示了BLF系统在预测准确性上的显著提升。

BLF系统的广泛应用潜力体现在其能够处理多种类型的预测问题，包括市场预测和数据集预测。这一系统的成功不仅为预测领域带来了新的技术突破，也为未来的研究指明了方向。

然而，BLF系统也存在一些局限性，例如在处理完全未知的事件时可能表现不佳，以及系统的计算成本较高。未来的研究将致力于优化系统的计算效率，并在更多的实际应用场景中进行测试。

深度分析

研究背景

预测未来事件的概率是一个具有广泛应用的基本挑战，涉及地缘政治、金融和公共健康等领域。近年来，随着大规模语言模型（LLM）的发展，研究人员发现这些模型在获得网络搜索访问权限时可以接近人类水平的预测能力。ForecastBench等基准提供了标准化的评估方法，并通过在线排行榜展示了不同方法的性能。BLF（贝叶斯语言预测器）系统通过结合贝叶斯更新和自然语言处理，为二元预测提供了一种全新的解决方案。BLF系统的核心在于其能够动态更新的贝叶斯语言信念状态，这种状态结合了数值概率估计和自然语言证据总结，使得系统能够在每一步迭代中进行更准确的预测。

核心问题

在预测未来事件时，传统方法通常面临许多挑战，尤其是在处理复杂的地缘政治、金融和公共健康问题时。现有的预测系统通常依赖于大量的历史数据和复杂的数学模型，但这些方法在处理动态变化的环境时往往显得力不从心。BLF系统通过结合贝叶斯更新和自然语言处理，为二元预测提供了一种全新的解决方案。

核心创新

BLF系统的创新之处在于其结合了贝叶斯更新和自然语言处理，用于二元预测。具体而言，BLF系统的核心在于其能够动态更新的贝叶斯语言信念状态，这种状态结合了数值概率估计和自然语言证据总结，使得系统能够在每一步迭代中进行更准确的预测。与传统方法相比，BLF系统在处理复杂预测问题时表现出色。

方法详解

BLF系统的技术原理包括三个关键部分：

�� 贝叶斯语言信念状态：用于动态更新预测信念，结合数值概率估计和自然语言证据总结。

�� 分层多次试验聚合：通过logit空间收缩和数据依赖先验结合独立试验结果。

�� 分层校准：使用Platt缩放和分层先验避免对极端预测的过度收缩。

实验设计

结果分析

应用场景

局限与展望

BLF系统也存在一些局限性，例如在处理完全未知的事件时可能表现不佳，以及系统的计算成本较高。未来的研究将致力于优化系统的计算效率，并在更多的实际应用场景中进行测试。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。你需要预测你家人会喜欢哪种口味的菜肴。传统的方法可能是查看过去的食谱和家人的反馈，然后做出一个大概的猜测。但BLF系统就像一个聪明的助手，它不仅会参考过去的食谱，还会根据家人的实时反馈和他们的口味变化来调整你的菜谱。这个助手会在每次做饭时都更新它的预测，确保你做出的菜肴总是符合家人的口味。通过这种方式，BLF系统能够在动态变化的环境中做出更准确的预测。

简单解释像给14岁少年讲一样

嘿，小伙伴！想象一下你在玩一个预测游戏，你需要猜测明天的天气。传统的方法可能是查看过去几天的天气记录，然后做出一个大概的猜测。但BLF系统就像一个超级智能的天气预报员，它不仅会参考过去的天气记录，还会根据最新的天气数据和趋势来调整它的预测。这个系统会在每次预测时都更新它的判断，确保你得到的天气预报总是最新最准确的。是不是很酷？

术语表

贝叶斯更新 (Bayesian Updating)

一种统计方法，用于根据新获得的数据更新概率估计。

在BLF系统中用于动态更新预测信念。

语言模型 (Language Model)

一种用于生成和理解自然语言的模型，通常基于深度学习。

在BLF系统中用于生成自然语言证据总结。

信念状态 (Belief State)

一种表示当前预测信念的结构化数据，包括概率估计和证据总结。

在BLF系统中用于动态更新预测信念。

分层校准 (Hierarchical Calibration)

一种校准方法，通过分层先验避免对极端预测的过度收缩。

在BLF系统中用于提高预测准确性。

Platt缩放 (Platt Scaling)

一种用于将原始预测概率转换为校准概率的技术。

在BLF系统中用于分层校准。

logit空间收缩 (Logit-space Shrinkage)

一种通过调整预测结果的logit值来实现更稳定预测的方法。

在BLF系统中用于多次试验聚合。

Brier指数 (Brier Index)

一种用于评估预测准确性的指标，数值越低表示预测越准确。

在BLF系统的实验中用于评估性能。

ForecastBench

一个用于评估预测系统性能的基准，包含多种类型的问题。

在BLF系统的实验中用于测试和比较性能。

消融研究 (Ablation Study)

一种通过去除系统的某些部分来评估其对整体性能影响的方法。

在BLF系统的实验中用于验证各组件的重要性。

零样本预测 (Zero-shot Forecasting)

一种无需事先训练数据即可进行预测的方法。

在BLF系统的实验中用于比较基线性能。

开放问题这项研究留下的未解疑问

1 如何在完全未知的事件中提高BLF系统的预测准确性？目前的方法依赖于历史数据和语言模型的知识，而在完全未知的情况下可能表现不佳。
2 如何优化BLF系统的计算效率？由于系统复杂性较高，计算成本可能较大，尤其是在多次试验聚合时。
3 在某些特定数据集上，分层收缩可能会导致性能下降。如何在不影响其他数据集性能的情况下解决这一问题？
4 BLF系统在处理多类别预测问题时的表现如何？目前的研究主要集中在二元预测上，未来需要探索多类别预测的可能性。
5 如何在更多的实际应用场景中验证BLF系统的广泛适用性？目前的实验主要集中在特定的基准上，未来需要在更多的实际应用中进行测试。

应用场景

近期应用

金融市场预测

BLF系统可以用于预测股票市场的走势，帮助投资者做出更明智的决策。

公共健康预警

通过预测流行病的传播趋势，BLF系统可以为公共健康机构提供早期预警。

地缘政治分析

BLF系统可以用于预测国际关系的变化，帮助政府制定更有效的外交政策。

远期愿景

智能决策系统

BLF系统可以成为未来智能决策系统的核心组件，帮助各行业实现自动化决策。

全自动预测平台

通过结合更多的数据源和预测模型，BLF系统可以发展成为一个全自动的预测平台，广泛应用于各个领域。

原文摘要

We present BLF (Bayesian Linguistic Forecaster), an agentic system for binary forecasting that achieves state-of-the-art performance on the ForecastBench benchmark. The system is built on three ideas. (1) A Bayesian linguistic belief state: a semi-structured representation combining numerical probability estimates with natural-language evidence summaries, updated by the LLM at each step of an iterative tool-use loop. This contrasts with the common approach of appending all retrieved evidence to an ever-growing context. (2) Hierarchical multi-trial aggregation: running $K$ independent trials and combining them using logit-space shrinkage with a data-dependent prior. (3) Hierarchical calibration: Platt scaling with a hierarchical prior, which avoids over-shrinking extreme predictions for sources with skewed base rates. On 400 backtesting questions from the ForecastBench leaderboard, BLF outperforms all the top public methods, including Cassi, GPT-5, Grok~4.20, and Foresight-32B. Ablation studies show that the structured belief state is as impactful as web search access, and that shrinkage aggregation and hierarchical calibration each provide significant additional gains. In addition, we develop a robust back-testing framework with a leakage rate below 1.5\%, and use rigorous statistical methodology to compare different methods while controlling for various sources of noise.

cs.AI

参考文献 (20)

Outcome-based Reinforcement Learning to Predict the Future

Benjamin Turtel, Danny Franklin, Kris Skotheim 等

2025 7 引用 ⭐ 高影响力查看解读 →

Stein's Estimation Rule and Its Competitors- An Empirical Bayes Approach

B. Efron, C. Morris

1973 1054 引用

AutoHarness: improving LLM agents by automatically synthesizing a code harness

Xinghua Lou, Miguel L'azaro-Gredilla, A. Dedieu 等

2026 5 引用查看解读 →

Reasoning and Tools for Human-Level Forecasting

Elvis Hsieh, Preston Fu, Jonathan Chen

2024 7 引用查看解读 →

PolyBench: Benchmarking LLM Forecasting and Trading Capabilities on Live Prediction Market Data

Pu-Jen Cheng, Junchen Liu, Yunshen Long

2026 1 引用查看解读 →

Wisdom of the silicon crowd: LLM ensemble prediction capabilities rival human crowd accuracy

P. Schoenegger, Indre Tuminauskaite, P. S. Park 等

2024 66 引用查看解读 →

Can Language Models Use Forecasting Strategies?

Sarah Pratt, S. Blumberg, Pietro K. Carolino 等

2024 12 引用查看解读 →

OpenEP: Open-Ended Future Event Prediction

Yong Guan, Hao Peng, Xiaozhi Wang 等

2024 12 引用查看解读 →

Judgmental forecasting: A review of progress over the last 25 years

Michael Lawrence, P. Goodwin, M. O'Connor 等

2006 529 引用

TFRBench: A Reasoning Benchmark for Evaluating Forecasting Systems

Md. Atik Ahamed, Mihir Parmar, Palash Goyal 等

2026 1 引用查看解读 →

Proper Scoring Rules for Estimation and Forecast Evaluation

Kartik G. Waghmare, J. Ziegel

2025 19 引用查看解读 →

Pitfalls in Evaluating Language Model Forecasters

Daniel Paleka, Shashwat Goel, Jonas Geiping 等

2025 11 引用查看解读 →

ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities

Ezra Karger, Houtan Bastani, Chen Yueh-Han 等

2024 50 引用查看解读 →

Simulated Ignorance Fails: A Systematic Study of LLM Behaviors on Forecasting Problems Before Model Knowledge Cutoff

Zehan Li, YuXuan Wang, Ali El Lahib 等

2026 2 引用查看解读 →

Scaling Open-Ended Reasoning to Predict the Future

Nikhil Chandak, Shashwat Goel, Ameya Prabhu 等

2025 4 引用查看解读 →

Time-R1: Towards Comprehensive Temporal Reasoning in LLMs

Zijia Liu, Peixuan Han, Haofei Yu 等

2025 17 引用查看解读 →

Forecasting Future World Events with Neural Networks

Andy Zou, Tristan Xiao, Ryan Jia 等

2022 45 引用查看解读 →

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Yogesh Agrawal, Aniruddha Dutta, Mahadi Hasan 等

2026 1 引用查看解读 →

Superforecasting: The Art and Science of Prediction

P. Tetlock, Dan Gardner

2015 657 引用

Prediction Arena: Benchmarking AI Models on Real-World Prediction Markets

Jade Zhang, Gardenia Liu, Oliver Johansson 等

2026 1 引用查看解读 →

Agentic Forecasting using Sequential Bayesian Updating of Linguistic Beliefs

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

贝叶斯更新 (Bayesian Updating)

语言模型 (Language Model)

信念状态 (Belief State)

分层校准 (Hierarchical Calibration)

Platt缩放 (Platt Scaling)

logit空间收缩 (Logit-space Shrinkage)

Brier指数 (Brier Index)

ForecastBench

消融研究 (Ablation Study)

零样本预测 (Zero-shot Forecasting)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

金融市场预测

公共健康预警

地缘政治分析

远期愿景

智能决策系统

全自动预测平台

原文摘要

参考文献 (20)

相关论文

Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

Large Language Models Exhibit Normative Conformity

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问