HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

TL;DR

HorizonMath通过自动验证框架评估AI在数学发现上的进展，GPT 5.4 Pro在两个问题上取得突破。

cs.LG 🔴 高级 2026-03-17 59 次浏览

Erik Y. Wang Sumeet Motwani James V. Roggeveen Eliot Hodges Dulhan Jayalath Charles London Kalyan Ramakrishnan Flaviu Cipcigan Philip Torr Alessandro Abate

AI 阅读器 Arxiv 原文下载 PDF

AI 数学发现自动验证基准测试 GPT 5.4 Pro

核心发现

方法论

HorizonMath提供了一个包含100多个未解决问题的基准测试，涵盖计算和应用数学的8个领域。该框架通过高精度数值比较和确定性约束检查来自动验证候选解的正确性。此方法利用生成器-验证器差距，使得问题的发现困难但验证简单，从而为AI在数学发现中的进展提供了一个可扩展的评估平台。

关键结果

GPT 5.4 Pro在两个优化问题上提出了可能优于已知结果的解决方案，这表明其在数学发现上具有潜在的新贡献。这两个问题涉及构造一个对象以超越已发表的结果，验证显示GPT 5.4 Pro的解决方案在某些情况下优于人类的优化。
在101个问题中，GPT 5.4 Pro在10个可解性为0的问题中解决了5个，而Gemini 3.1 Pro和Opus 4.6仅解决了3个。这表明GPT 5.4 Pro在处理复杂数学问题上表现出色。
HorizonMath的设计使其免受数据污染，因为所有问题的解决方案在训练语料库中不存在。大多数现有的前沿模型在此基准测试中的得分接近0%，这进一步验证了其挑战性。

研究意义

HorizonMath的推出为AI在数学发现领域的进展提供了一个标准化的评估工具，解决了现有基准测试依赖于形式证明验证或人工审查的扩展性问题。通过自动化验证，HorizonMath不仅降低了评估成本，还提高了评估的客观性和速度。这一框架的开放性和可扩展性使其成为一个不断增长的社区资源，推动AI在数学研究中的自主能力。

技术贡献

HorizonMath通过引入自动化验证框架，显著区别于现有的数学基准测试。其利用生成器-验证器差距的设计，使得问题的验证过程快速且无需人工干预。此外，HorizonMath的开放源码和模块化问题格式为社区贡献和反馈提供了便利，推动了AI在数学发现中的自主性。

新颖性

HorizonMath是首个专注于未解决数学问题的自动化验证基准测试，其设计不仅避免了数据污染，还通过高精度数值比较和确定性约束检查提供了快速、客观的正确性信号。这一创新使得HorizonMath在评估AI的数学发现能力上具有独特的优势。

局限性

虽然高精度数值参考匹配提供了强有力的证据，但并不能正式证明闭式表达式的绝对正确性。因此，这些解决方案最好被视为强有力的猜测，直到得到证明。
合规检查器可能会偶尔接受利用微妙漏洞的解决方案，或拒绝使用不寻常但合法构造的有效解决方案。
当前的前沿模型在HorizonMath中的得分接近0%，这表明该基准测试的挑战性可能超出了现有AI系统的能力。

未来方向

未来的研究方向包括扩展基准测试以接受简化但不一定是精确闭式形式的解决方案。这种灵活性将有助于捕捉更广泛的研究成果，特别是在物理学等领域。此外，随着AI能力的提升，HorizonMath将提供一个具体且可重复的信号，以衡量AI在自主数学研究中的进展。

AI 总览摘要

HorizonMath是一个创新的基准测试，旨在评估AI在数学发现中的进展。传统的数学基准测试通常依赖于形式证明验证或人工审查，这不仅成本高昂，而且难以扩展。HorizonMath通过引入自动化验证框架，解决了这一问题。其设计利用了生成器-验证器差距，即候选解决方案难以生成但易于验证的特性，从而实现了快速、客观的评估。

HorizonMath包含了100多个未解决的问题，涵盖计算和应用数学的8个领域。每个问题都经过精心设计，以确保其解决方案在训练语料库中不存在，从而避免了数据污染。通过高精度数值比较和确定性约束检查，HorizonMath能够自动验证候选解决方案的正确性。这一框架的开放性和可扩展性使其成为一个不断增长的社区资源，推动AI在数学研究中的自主能力。

在实验中，GPT 5.4 Pro在两个优化问题上提出了可能优于已知结果的解决方案，这表明其在数学发现上具有潜在的新贡献。这两个问题涉及构造一个对象以超越已发表的结果，验证显示GPT 5.4 Pro的解决方案在某些情况下优于人类的优化。此外，在101个问题中，GPT 5.4 Pro在10个可解性为0的问题中解决了5个，而Gemini 3.1 Pro和Opus 4.6仅解决了3个。这表明GPT 5.4 Pro在处理复杂数学问题上表现出色。

然而，HorizonMath也存在一些局限性。虽然高精度数值参考匹配提供了强有力的证据，但并不能正式证明闭式表达式的绝对正确性。因此，这些解决方案最好被视为强有力的猜测，直到得到证明。此外，合规检查器可能会偶尔接受利用微妙漏洞的解决方案，或拒绝使用不寻常但合法构造的有效解决方案。

总的来说，HorizonMath为AI在数学发现领域的进展提供了一个标准化的评估工具，解决了现有基准测试依赖于形式证明验证或人工审查的扩展性问题。通过自动化验证，HorizonMath不仅降低了评估成本，还提高了评估的客观性和速度。未来的研究方向包括扩展基准测试以接受简化但不一定是精确闭式形式的解决方案。这种灵活性将有助于捕捉更广泛的研究成果，特别是在物理学等领域。随着AI能力的提升，HorizonMath将提供一个具体且可重复的信号，以衡量AI在自主数学研究中的进展。

深度分析

研究背景

在人工智能领域，自动化数学发现一直是一个重要的研究方向。近年来，随着大规模语言模型的快速发展，AI在数学和科学推理方面的能力得到了显著提升。然而，AI是否能够进行原创性研究仍然是一个备受争议且未被充分探索的问题。现有的数学基准测试，如GSM8K和MATH，主要用于评估AI在已知问题上的表现，已经接近饱和。即使是更具挑战性的基准测试，如IMO-Bench和Putnam-Bench，也仅评估已知解决方案的问题，因此无法有效衡量AI系统在数学发现中的能力。为了填补这一空白，HorizonMath应运而生，旨在通过自动化验证框架评估AI在数学发现中的进展。

核心问题

HorizonMath的核心问题是如何评估AI在未解决数学问题上的表现。这些问题的发现难度大，需要有意义的数学洞察，但验证过程却相对简单且计算效率高。由于这些问题的解决方案是未知的，HorizonMath避免了数据污染，现有的前沿模型在此基准测试中的得分接近0%。这一问题的重要性在于，它不仅挑战了AI的数学推理能力，还为AI在数学研究中的自主能力提供了一个标准化的评估工具。

核心创新

HorizonMath的核心创新在于其自动化验证框架和问题设计。首先，HorizonMath通过高精度数值比较和确定性约束检查来自动验证候选解的正确性。其次，HorizonMath的设计利用了生成器-验证器差距，使得问题的验证过程快速且无需人工干预。最后，HorizonMath的开放源码和模块化问题格式为社区贡献和反馈提供了便利，推动了AI在数学发现中的自主性。

方法详解

HorizonMath的方法论包括以下几个关键步骤：

�� 问题选择：从数学文献中识别候选问题，确保这些问题在训练语料库中不存在。
�� 自动化验证：通过高精度数值比较和确定性约束检查来验证候选解的正确性。
�� 生成器-验证器差距：利用生成器-验证器差距，使得问题的验证过程快速且无需人工干预。
�� 开放源码：提供开放源码和模块化问题格式，方便社区贡献和反馈。

实验设计

在实验设计中，HorizonMath包含了100多个未解决的问题，涵盖计算和应用数学的8个领域。每个问题都经过精心设计，以确保其解决方案在训练语料库中不存在，从而避免了数据污染。通过高精度数值比较和确定性约束检查，HorizonMath能够自动验证候选解决方案的正确性。实验中使用的模型包括GPT 5.4 Pro、Gemini 3.1 Pro和Opus 4.6，分别在不同的问题集上进行测试。

结果分析

实验结果显示，GPT 5.4 Pro在两个优化问题上提出了可能优于已知结果的解决方案，这表明其在数学发现上具有潜在的新贡献。此外，在101个问题中，GPT 5.4 Pro在10个可解性为0的问题中解决了5个，而Gemini 3.1 Pro和Opus 4.6仅解决了3个。这表明GPT 5.4 Pro在处理复杂数学问题上表现出色。

应用场景

HorizonMath的应用场景包括为AI在数学发现领域的进展提供一个标准化的评估工具。通过自动化验证，HorizonMath不仅降低了评估成本，还提高了评估的客观性和速度。这一框架的开放性和可扩展性使其成为一个不断增长的社区资源，推动AI在数学研究中的自主能力。

局限与展望

HorizonMath的局限性包括高精度数值参考匹配虽然提供了强有力的证据，但并不能正式证明闭式表达式的绝对正确性。此外，合规检查器可能会偶尔接受利用微妙漏洞的解决方案，或拒绝使用不寻常但合法构造的有效解决方案。当前的前沿模型在HorizonMath中的得分接近0%，这表明该基准测试的挑战性可能超出了现有AI系统的能力。

通俗解读非专业人士也能看懂

想象你正在一个巨大的图书馆里，里面有无数的书籍和问题。每本书都代表一个数学问题，而你的任务是找到那些还没有人解决的难题。HorizonMath就像是一个聪明的图书管理员，它不仅能帮你找到这些难题，还能告诉你这些问题是否已经被解决。它通过一种叫做自动化验证的方式来检查答案的正确性，就像一个智能的答案检查器。

想象一下，你在做一个复杂的拼图游戏。每块拼图都是一个数学问题，而你需要找到合适的拼图块来完成整个图案。HorizonMath就像是一个智能的拼图助手，它能帮你快速找到合适的拼图块，并确保它们都能完美契合。

在这个过程中，HorizonMath会使用一种叫做生成器-验证器差距的技巧。这就像是在找拼图块时，它能快速筛选出那些不合适的块，只留下那些可能正确的块。这不仅节省了时间，还提高了拼图的效率。

总之，HorizonMath就像是一个聪明的助手，帮助你在数学的海洋中找到那些未被解决的难题，并快速验证你的答案是否正确。这使得数学研究变得更加高效和有趣。

简单解释像给14岁少年讲一样

嘿，小伙伴！你知道吗，数学世界里有很多问题还没有被解决，就像一个个未解的谜题。而HorizonMath就是一个超级酷的工具，专门用来帮助AI解决这些谜题！

想象一下，你在玩一个超级复杂的拼图游戏，每块拼图都是一个数学问题。HorizonMath就像是一个聪明的拼图助手，它能帮你快速找到合适的拼图块，并确保它们都能完美契合。

它是怎么做到的呢？HorizonMath会用一种叫做自动化验证的方式来检查答案的正确性，就像一个智能的答案检查器。这样一来，我们就能知道哪些答案是正确的，哪些还需要改进。

所以，下次你在数学课上遇到难题时，想想HorizonMath，它可是AI的好帮手，帮助解决那些超级难的数学问题！是不是很酷？

术语表

自动化验证 (Automatic Verification)

自动化验证是一种通过计算机程序自动检查数学问题答案正确性的方法。它通过高精度数值比较和确定性约束检查来验证候选解的正确性。

在HorizonMath中用于验证AI生成的数学问题解决方案。

生成器-验证器差距 (Generator-Verifier Gap)

生成器-验证器差距是指候选解决方案难以生成但易于验证的特性。这种差距使得问题的验证过程快速且无需人工干预。

HorizonMath利用这一差距来设计问题，使得验证过程更高效。

数值比较 (Numerical Comparison)

数值比较是一种通过比较计算结果与高精度参考值来验证数学表达式正确性的方法。

在HorizonMath中用于验证候选解的正确性。

确定性约束检查 (Deterministic Constraint Checking)

确定性约束检查是一种通过检查候选解是否满足所有必要属性来验证其正确性的方法。

用于HorizonMath中验证构造问题的正确性。

数据污染 (Data Contamination)

数据污染是指训练数据集中包含测试数据的情况，可能导致模型在测试时表现出不真实的高性能。

HorizonMath通过设计未知解决方案的问题来避免数据污染。

优化问题 (Optimization Problem)

优化问题是指寻找某个目标函数的最优解的问题，通常涉及构造一个对象以超越已发表的结果。

在HorizonMath中用于评估AI在数学发现中的能力。

闭式表达式 (Closed-form Expression)

闭式表达式是指可以用有限个标准数学运算符和函数表示的数学表达式。

HorizonMath要求候选解为闭式表达式以便验证。

模块化问题格式 (Modular Problem Format)

模块化问题格式是一种设计问题的方式，使得问题可以被独立验证和扩展。

HorizonMath采用模块化问题格式以方便社区贡献。

高精度数值参考 (High-Precision Numerical Reference)

高精度数值参考是指用于验证候选解的高精度计算结果。

HorizonMath通过与高精度数值参考的比较来验证候选解。

社区资源 (Community Resource)

社区资源是指开放给研究社区使用和贡献的工具或平台。

HorizonMath作为一个开放的基准测试，欢迎社区贡献新问题。

开放问题这项研究留下的未解疑问

1 如何在不依赖高精度数值比较的情况下验证闭式表达式的正确性？当前的方法虽然提供了强有力的证据，但并不能正式证明闭式表达式的绝对正确性。
2 如何提高合规检查器的准确性，以避免接受利用微妙漏洞的解决方案或拒绝使用不寻常但合法构造的有效解决方案？
3 如何设计更具挑战性的数学问题，以更好地评估AI在数学发现中的能力？当前的前沿模型在HorizonMath中的得分接近0%，这表明该基准测试的挑战性可能超出了现有AI系统的能力。
4 如何在不增加验证成本的情况下扩展HorizonMath的规模？现有的数学基准测试通常依赖于形式证明验证或人工审查，这不仅成本高昂，而且难以扩展。
5 如何在不影响验证速度的情况下提高HorizonMath的评估精度？自动化验证虽然提高了评估的客观性和速度，但在某些情况下可能无法提供足够的精度。

应用场景

近期应用

数学研究评估

HorizonMath可以作为数学研究中的评估工具，帮助研究人员快速验证其解决方案的正确性。

AI模型测试

HorizonMath可以用于测试AI模型在数学发现中的能力，帮助开发者识别模型的优势和不足。

教育工具

HorizonMath可以作为教育工具，帮助学生理解数学问题的复杂性和解决方法。

远期愿景

自主数学研究

随着AI能力的提升，HorizonMath有望推动AI在数学研究中的自主能力，成为数学发现的主要推动力。

跨学科应用

HorizonMath的自动化验证框架可以扩展到其他学科，推动AI在科学研究中的应用。

原文摘要

Can AI make progress on important, unsolved mathematical problems? Large language models are now capable of sophisticated mathematical and scientific reasoning, but whether they can perform novel research is still widely debated and underexplored. We introduce HorizonMath, a benchmark of over 100 predominantly unsolved problems spanning 8 domains in computational and applied mathematics, paired with an open-source evaluation framework for automated verification. Our benchmark targets a class of problems where discovery is hard, requiring meaningful mathematical insight, but verification is computationally efficient and simple. Because these solutions are unknown, HorizonMath is immune to data contamination, and most state-of-the-art models score near 0%. Existing research-level benchmarks instead rely on formal proof verification or manual review, both of which are expensive to scale. Using this platform, we find two problems for which GPT 5.4 Pro proposes solutions that improve on the best-known published results, representing potential novel contributions (pending expert review). We release HorizonMath as an open challenge and a growing community resource, where correct solutions to problems in the unsolved problem classes could constitute novel results in the mathematical literature.

cs.LG

参考文献 (20)

Claude’s Cycles

2 引用 ⭐ 高影响力

UQ: Assessing Language Models on Unsolved Questions

Fan Nie, Ken Ziyu Liu, Zihao Wang 等

2025 7 引用查看解读 →

Resolution of Erd\H{o}s Problem #728: a writeup of Aristotle's Lean proof

Nat Sothanaphan

2026 7 引用查看解读 →

AlphaEvolve: A coding agent for scientific and algorithmic discovery

Alexander Novikov, Ngân V˜u, Marvin Eisenberger 等

2025 314 引用查看解读 →

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain 等

2026 7 引用查看解读 →

CLOSED FORMS: WHAT THEY ARE AND WHY WE CARE

J. Borwein, R. Crandall

2013 113 引用

Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems

Tony Feng, Trieu H. Trinh, G. Bingham 等

2026 8 引用查看解读 →

FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

Elliott S. Glazer, Ege Erdil, T. Besiroglu 等

2024 152 引用查看解读 →

Training Verifiers to Solve Math Word Problems

K. Cobbe, Vineet Kosaraju, Mo Bavarian 等

2021 7759 引用查看解读 →

Mathematical discoveries from program search with large language models

Bernardino Romera-Paredes, M. Barekatain, Alexander Novikov 等

2023 736 引用

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

Chaoqun He, Renjie Luo, Yuzhuo Bai 等

2024 846 引用查看解读 →

Towards Robust Mathematical Reasoning

Thang Luong, Dawsen Hwang, Hoang Nguyen 等

2025 25 引用查看解读 →

First Proof

M. Abouzaid, Andrew J. Blumberg, Martin Hairer 等

2026 2 引用查看解读 →

HARDMath2: A Benchmark for Applied Mathematics Built by Students as Part of a Graduate Class

J. Roggeveen, Erik Y. Wang, Will Flintoft 等

2025 5 引用查看解读 →

Single-minus gluon tree amplitudes are nonzero

A. Guevara, A. Lupsasca, David Skinner 等

2026 6 引用查看解读 →

Mathematical exploration and discovery at scale

Bogdan Georgiev, Javier G'omez-Serrano, Terence Tao 等

2025 34 引用查看解读 →

Learning to Discover at Test Time

Mert Yuksekgonul, Daniel Koceja, Xinhao Li 等

2026 21 引用查看解读 →

PutnamBench: Evaluating Neural Theorem-Provers on the Putnam Mathematical Competition

G. Tsoukalas, Jasper Lee, J. Jennings 等

2024 100 引用查看解读 →

Theory and computation of spheroidal wavefunctions

P. Falloon, P. Abbott, J. B. Wang

2002 88 引用查看解读 →

Measuring Mathematical Problem Solving With the MATH Dataset

Dan Hendrycks, Collin Burns, Saurav Kadavath 等

2021 4587 引用查看解读 →

HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

自动化验证 (Automatic Verification)

生成器-验证器差距 (Generator-Verifier Gap)

数值比较 (Numerical Comparison)

确定性约束检查 (Deterministic Constraint Checking)

数据污染 (Data Contamination)

优化问题 (Optimization Problem)

闭式表达式 (Closed-form Expression)

模块化问题格式 (Modular Problem Format)

高精度数值参考 (High-Precision Numerical Reference)

社区资源 (Community Resource)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

数学研究评估

AI模型测试

教育工具

远期愿景

自主数学研究

跨学科应用

原文摘要

参考文献 (20)

相关论文

Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

Efficient learning by implicit exploration in bandit problems with side observations

Necessary and sufficient conditions for universality of Kolmogorov-Arnold networks

Collocation-based Robust Physics Informed Neural Networks for time-dependent simulations of pollution propagation under thermal inversion conditions on Spitsbergen

Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

Neural Recovery of Historical Lexical Structure in Bantu Languages from Modern Data

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问