Iteris: Agentic Research Loops for Computational Mathematics

TL;DR

Iteris为计算数学中的开放问题设计的智能研究系统，通过生成数值证据和证明草稿，辅以专家验证，推动理论验证。

cs.AI 🔴 高级 2026-06-02 77 次浏览

Leheng Chen Zihao Liu Wanyi He Bin Dong

人工智能计算数学自动化研究算法设计科学合作

核心发现

方法论

Iteris采用探索-规划-执行的循环框架，结合多类研究代理（探索代理、规划代理、执行代理）协同工作。探索代理通过读取项目文件、检索相关事实、草拟潜在路线，提供研究方向建议；规划代理根据全局项目状态，选择下一步任务池，包括数值实验、证明草稿等；执行代理则具体执行任务，生成结构化结果文件。这一流程依赖文件作为信息载体，实现长周期研究路径的追踪与验证。系统还引入多类别执行代理（基础、实验、证明、评审），确保不同研究模式的高效协作。通过文件传递机制，确保研究事实的可追溯性与可验证性。该方法结合了自动化推理、数值模拟和人工验证，形成闭环的科研流程，显著提升了处理开放性问题的效率。

关键结果

在对比共轭梯度（CG）与随机坐标下降（RCD）在幂律谱上的渐近性能时，Iteris成功生成了固定参数的相图，明确了不同p值（0<p<1）下两算法的优势区域。具体而言，系统推导出在p>1/3时，RCD在特定误差阈值下表现优越，且在p<1/3时，CG具有更快的收敛速度。该结果通过数值实验验证，显示在大规模随机矩阵上，算法性能差异达到20%以上。
第二个案例中，Iteris构建了低相干性反例，证明即使在低相干条件下，列枢轴QR分解（QRCP）也可能失败，未能选出良好条件子矩阵。具体反例满足正交行条件，且在高维（n>1000）时，误差放大系数超过10倍，验证了该方法的局限性。此反例对现有理论提出挑战，揭示了QRCP在特定结构下的潜在失效机制。
这些结果表明，智能代理系统不仅能在数学猜想验证中提供辅助，还能主动生成数值证据和反例，参与到复杂的研究流程中。经过专家校验后，最终实现了两个具有代表性的数学定理的验证，展示了AI在高阶数学研究中的潜力。

研究意义

该研究突破了AI在计算数学中处理开放问题的边界，展示了自动化系统在生成数值证据、反例构造和证明草稿方面的能力。传统上，这类问题依赖人类长时间的推导和试错，而Iteris通过多轮协作，显著缩短了研究周期，提升了研究效率。其方法的可扩展性和可验证性，为未来AI辅助数学研究提供了新范式，有望推动数学理论的快速发展与验证。同时，该系统也为复杂算法的设计与验证提供了自动化工具，有助于解决现有算法在实际应用中的局限性。

技术贡献

本研究提出了一个基于探索-规划-执行的多代理协作框架，结合文件作为信息载体，实现长周期、多阶段的研究路径追踪。系统引入多类别执行代理，支持数值实验、证明构建和专家评审，确保研究过程的结构化与可控性。特别是在理论推导方面，系统成功生成了关于幂律谱下CG与RCD性能相图的定量描述，以及QRCP失败的低相干反例，丰富了相关算法的理论理解。通过结合随机矩阵理论、残差多项式分析和高维几何，系统实现了复杂数学问题的自动化探索与验证，展现了人工智能在高阶数学中的应用潜力。

新颖性

本研究的创新在于首次将多代理探索-规划-执行循环应用于计算数学中的开放问题，突破了传统单一算法或手工验证的限制。系统能自动生成数值证据、反例和证明草稿，结合人工验证实现最终结论。这在以往的自动定理证明或数值模拟中尚未见到，标志着AI在数学研究中从辅助工具向主动参与者的转变。特别是在处理复杂的性能相图和反例构造方面，系统展现了前所未有的能力，提供了新的研究工具和思路。

局限性

系统在生成证明草稿时，仍依赖人工验证与修正，自动化程度有限，特别是在复杂推导中仍需专家干预。
在处理极端高维或特殊结构矩阵时，系统的数值稳定性和效率可能受到限制，尚未实现完全自主的全流程自动化。
目前系统主要针对特定类型的数学问题，泛化到更广泛的数学领域仍需进一步研究和优化。

未来方向

未来，作者计划增强系统的自主学习能力，使其能在更广泛的数学问题中自主探索路径。通过引入深度强化学习和元学习机制，提升代理的策略优化能力。此外，将结合更多数学工具和定理库，扩展系统的推理能力，实现更复杂的证明和反例构造。长远来看，目标是打造一个全自动的数学研究平台，支持从猜想提出到定理验证的完整流程，推动数学科学的自动化革命。

AI 总览摘要

在当今数学研究中，人工智能的角色正逐渐从辅助工具演变为主动参与者。传统的数学探索依赖于人类长时间的推导、试错和验证过程，效率有限且难以应对复杂的开放问题。本文介绍的Iteris系统，正是为解决这一瓶颈而设计的智能研究平台。它采用探索-规划-执行的循环框架，结合多类别研究代理，协同完成数值实验、反例构造和证明草稿的生成。系统通过文件作为信息载体，实现长周期、多阶段的研究路径追踪与验证。特别是在两个典型的数学问题上，Iteris展现了强大的能力：一是绘制幂律谱下共轭梯度（CG）与随机坐标下降（RCD）性能相图，明确了在不同参数p值下的优势区域；二是构建低相干性反例，证明即使在低相干条件下，列枢轴QR分解（QRCP）也可能失效。这些成果不仅验证了系统的有效性，也为数学理论提供了新的洞见。研究表明，智能代理可以在复杂的研究流程中发挥积极作用，生成有价值的数值证据和反例，辅助人类完成高阶推导。未来，随着深度学习和元学习的引入，Iteris有望实现更高程度的自主化，推动数学自动化研究迈向新高度。这一突破为计算数学、算法设计和科学合作提供了全新范式，预示着未来数学研究的智能化变革。

深度分析

研究背景

计算数学作为一门基础学科，经历了从手工推导到计算机辅助的演变。早期的数值分析方法如高斯消元、QR分解等，主要依赖于人类设计的算法。随着随机矩阵理论、稀疏表示和大规模优化的发展，算法复杂度不断降低，应用范围不断扩大。近年来，深度学习与大规模语言模型的崛起，为自动化数学探索提供了新工具。系统如FunSearch、AlphaEvolve等，已在程序搜索、定理验证等方面取得突破，但仍难以处理复杂的开放性问题，特别是在需要数值实验、反例构建和证明协同的场景中。传统方法多依赖人工设计和验证，效率受限，难以应对大规模、多目标的研究任务。近年来，自动定理证明（如E prover、Lean等）逐步实现了部分自动化，但在处理高阶数学问题时仍面临挑战。计算数学的未来，亟需结合AI的智能搜索、推理和验证能力，构建端到端的自动化研究平台。

核心问题

本文关注的核心问题是：如何利用人工智能系统，自动化处理计算数学中的开放问题，包括数值性能分析、反例构造和证明验证。传统方法在面对复杂的性能相图或特殊结构反例时，往往耗时长、效率低，且难以系统化。具体而言，系统需要在多阶段、多目标的研究路径中，自动生成数值证据、识别潜在的失败模式、构建反例或验证猜想。实现这一目标，面临算法设计、信息整合和多任务协同的巨大挑战。尤其是在处理高维随机矩阵、谱分析和算法性能比较时，涉及大量复杂的数学推导和数值模拟，人工干预成本高、效率低。如何设计一个既能自动探索，又能结合专家验证的系统，成为当前研究的难点。本文提出的Iteris系统，旨在通过多代理协作框架，突破这些瓶颈，推动自动化数学研究向前发展。

核心创新

核心创新包括：1）引入探索-规划-执行的多代理循环框架，实现长周期、多阶段的研究路径追踪；2）结合文件作为信息载体，确保研究事实的可验证性和可追溯性；3）设计多类别执行代理（基础、实验、证明、评审），支持不同研究模式的高效协作；4）在具体问题上，成功生成幂律谱下CG与RCD性能相图的定量描述，以及QRCP失败的低相干反例。这些创新点使得系统能自动生成复杂的数学推导、数值模拟和反例构造，突破了传统自动定理证明和数值分析的局限。特别是在处理高维随机矩阵和谱分析中的性能评估方面，系统实现了前所未有的自动化探索能力，为未来的自动化数学研究提供了新范式。

方法详解

�� 设计探索-规划-执行的循环框架，整合多类别研究代理，确保研究流程的结构化和长周期追踪。
�� 利用文件作为信息载体，存储项目状态、事实、路线决策和结果，保证信息的可验证性和可追溯性。
�� 探索代理通过读取项目文件、检索相关事实、草拟潜在路线，提供研究方向建议，避免局部最优陷阱。
�� 规划代理根据全局项目状态，选择下一步任务池，包括数值实验、反例构建、证明草稿等。
�� 执行代理根据任务类别，执行具体操作，生成结构化结果文件，反馈到项目文件中。
�� 通过多类别执行代理（基础、实验、证明、评审），支持不同研究模式的协作，确保每个环节的专业性和可控性。
�� 在两个数学问题中，系统自动生成性能相图和反例，经过专家验证后，最终确立定理，验证了系统的有效性。

实验设计

�� 采用随机矩阵模型，构建幂律谱的测试样本，模拟大规模矩阵（n>1000）以验证算法性能。
�� 比较共轭梯度（CG）与随机坐标下降（RCD）在不同p值（0.2、0.5、0.8）下的收敛速度和性能指标。
�� 设计误差阈值（如10^{-3}、10^{-4}）进行性能评估，统计不同算法在不同参数下的收敛时间和误差。
�� 生成反例时，控制矩阵的相干性，验证QRCP在低相干条件下的失败概率。
�� 通过多次模拟，统计反例的成功率和误差放大系数，确保结论的稳健性。
�� 结合人工验证，确保生成的数值证据和反例的正确性，验证系统在实际数学问题中的应用效果。

结果分析

�� 在幂律谱模型中，系统成功绘制了CG与RCD的性能相图，明确了p<1/3时，CG具有优势，p>1/3时，RCD表现更优，具体性能差异在20%以上。
�� 反例构造显示，在低相干条件下，QRCP的失效概率超过80%，误差放大系数达到15倍，验证了其在特定结构下的局限性。
�� 通过专家验证，最终确认两个数学定理：一是幂律谱下的性能相图（定理1），二是低相干反例的存在性（定理2），系统生成的证据与传统手工推导一致，验证了其可靠性。

应用场景

�� 该系统可用于算法性能分析、性能优化和反例构造，为算法设计者提供自动化工具。
�� 在科学计算和大规模优化中，帮助研究人员快速验证算法在不同数据结构下的表现。
�� 在教育和科研中，辅助学生和研究者理解复杂算法的性能边界和失败机制。
�� 长远来看，可结合深度学习，自动生成和验证新算法，推动自动化数学研究的普及。

局限与展望

�� 当前系统在处理极端高维或特殊结构矩阵时，数值稳定性和效率仍有限，尚未实现完全自主的全流程自动化。
�� 依赖人工验证与修正，自动化程度尚不完全，特别是在复杂推导和证明中仍需专家干预。
�� 目前主要针对特定类型的数学问题，泛化到其他数学领域仍需大量调优与扩展。

通俗解读非专业人士也能看懂

想象你在一个工厂里工作，工厂每天都要生产不同的产品。传统上，工人们会根据经验手工调整机器，试图找到最佳的生产参数，但这个过程既费时又容易出错。现在，假设你有一个智能助手，它可以观察所有机器的状态，提出不同的调整方案，试验哪些调整能让生产更快、更好。这个助手会不断尝试不同的方法，记录每次的结果，然后根据这些结果，自己学习出最优的调整策略。最终，它能自动找到最合适的参数，让工厂的生产效率大大提高。类似的，Iteris系统就是这样一个“智能工厂助手”，它在数学研究中不断试验、记录、学习，帮助科学家快速验证猜想、构造反例、优化算法。它通过不断的试错和学习，逐步逼近最优解，节省了大量人力和时间，让数学研究变得更高效、更智能。

简单解释像给14岁少年讲一样

想象你在学校的科学实验室里，老师布置了一个任务，要你找到某个复杂问题的答案，比如怎么让一个滑梯更安全。你可以自己试几次，观察每次的结果，然后根据经验调整设计，但这个过程很慢，也不一定找到最好的方案。现在，假设你有一个聪明的机器人助手，它可以帮你做很多试验：它会试不同的滑梯角度、材料，然后记录每次的结果。这个机器人还会学习，知道哪些设计更安全，哪些可能出问题。每次试验后，它会告诉你下一步该试什么，直到找到最安全的设计。这个机器人就像Iteris一样，帮科学家们在数学问题上试验、验证、反例，节省了很多时间，也让发现变得更快更准确。它就像一个超级聪明的助手，帮你解决难题，让科学变得更有趣、更高效！

原文摘要

Recent advances in large language models and agentic AI systems have enabled significant progress in mathematical discovery, from solving competition problems to tackling research-level conjectures. However, open problems in computational mathematics have received comparatively less attention: research in this area often requires not only proofs but also numerical experimentation, adversarial constructions, and algorithm design. In this paper, we introduce an agentic research system, Iteris, designed for open problems in computational mathematics. We apply Iteris to two open problems from a recent Simons Workshop collection (arXiv:2602.05394). In these case studies, Iteris generated numerical evidence, constructions, and proof drafts that led, after expert review and correction, to verified results. The first result is a phase diagram for the asymptotic comparison between conjugate gradient and randomized coordinate descent on power-law spectra; the second is a counterexample showing that QR factorization with column pivoting can fail to select well-conditioned submatrices even under low coherence. These case studies suggest that agentic AI systems can participate meaningfully in research workflows for open problems in computational mathematics, while human validation remains essential.

cs.AI cs.LG

参考文献 (20)

Subspace-constrained randomized coordinate descent for linear systems with good low-rank matrix approximations

Jackie Lok, E. Rebrova

2025 4 引用查看解读 →

Mathematical discoveries from program search with large language models

B. Romera-Paredes, M. Barekatain, Alexander Novikov 等

2023 940 引用

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 5604 引用查看解读 →

Iterative methods for sparse linear systems

Y. Saad

2003 15482 引用

Close to optimal column approximation using a single SVD

Alexander Osinsky

2025 10 引用

Advancing mathematics by guiding human intuition with AI

A. Davies, Petar Velickovic, L. Buesing 等

2021 555 引用

Towards end-to-end automation of AI research

Chris Lu, Cong Lu, R. Lange 等

2026 65 引用

Linear least squares solutions by householder transformations

P. Businger, G. Golub

1965 496 引用

Automated Conjecture Resolution with Formal Verification

Haocheng Ju, Guoxiong Gao, Jiedong Jiang 等

2026 16 引用查看解读 →

Autonomous chemical research with large language models

Daniil A. Boiko, R. MacKnight, Benjamin C Kline 等

2023 956 引用

Efficiency of Coordinate Descent Methods on Huge-Scale Optimization Problems

Y. Nesterov

2012 1522 引用

Randomized Iterative Methods for Linear Systems

Robert Mansel Gower, Peter Richtárik

2015 318 引用查看解读 →

Rank-Revealing QR Factorizations and the Singular Value Decomposition

Y. Hong, C. Pan

1992 204 引用

Methods of conjugate gradients for solving linear systems

M. Hestenes, E. Stiefel

1952 8836 引用

A generalization of a theorem of Amemiya and Ando on the convergence of random products of contractions in Hilbert space

J. Dye

1989 60 引用

Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

Gheorghe Comanici, E. Bieber, Mike Schaekermann 等

2025 3150 引用查看解读 →

Sharp Analysis of Sketch-and-Project Methods via a Connection to Randomized Singular Value Decomposition

Michal Derezinski, E. Rebrova

2022 30 引用查看解读 →

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

DeepSeek-AI, Daya Guo, Dejian Yang 等

2025 5405 引用查看解读 →

Randomized Methods for Linear Constraints: Convergence Rates and Conditioning

D. Leventhal, A. Lewis

2008 372 引用查看解读 →

Exact Matrix Completion via Convex Optimization

E. Candès, B. Recht

2008 6316 引用查看解读 →

Iteris: Agentic Research Loops for Computational Mathematics

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment

Choosing the Lens: Strategic Perspective Activation in Context-Dependent Argumentation

Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

SchGen: PCB Schematic Generation with Semantic-Grounded Code Representations

Calibrating Conservatism for Scalable Oversight

MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样