MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval
MathNet提供了一个全球多模态数学推理和检索基准,涵盖47国的30,676道奥数题。
核心发现
方法论
MathNet方法论包括三个核心任务:问题求解、数学感知检索和检索增强问题求解。数据集由47个国家的奥数题目组成,涵盖17种语言和多种数学领域。检索基准通过人类专家精心挑选的数学等价和结构相似的问题对进行构建。实验评估了多种最先进的推理模型和嵌入模型,揭示了当前模型在数学推理和检索任务中的挑战。
关键结果
- Gemini-3.1-Pro在问题求解任务中取得了78.4%的准确率,而GPT-5为69.3%,显示出即使是最先进的模型在奥数级别问题上仍然面临挑战。
- 在数学感知检索任务中,嵌入模型表现不佳,难以检索到等价问题。
- DeepSeek-V3.2-Speciale在检索增强生成任务中实现了高达12%的性能提升,获得了基准测试中的最高分。
研究意义
MathNet的意义在于它填补了现有基准在规模、语言覆盖和任务多样性方面的空白。通过提供一个大规模、多模态和多语言的奥数题目数据集,MathNet为生成模型的数学推理和基于嵌入的数学检索提供了一个新的评估平台。这将有助于推动数学推理领域的研究进展,特别是在模型如何处理复杂的数学问题和等价问题检索方面。
技术贡献
MathNet的技术贡献在于它是第一个专注于数学问题检索的基准,提供了一个大规模的高质量奥数数据集。它不仅支持数学问题的生成和检索,还通过检索增强生成任务展示了检索质量对生成性能的显著影响。MathNet的数据集和基准的公开发布将为学术界和工业界提供一个重要的资源。
新颖性
MathNet的创新之处在于其全球多模态和多语言的覆盖范围,以及首次引入的数学问题检索基准。与现有的奥数数据集不同,MathNet不仅规模更大,而且在语言和任务多样性上也更为丰富。
局限性
- 当前模型在检索等价问题时表现不佳,尤其是在处理复杂的数学结构时。
- 检索增强生成任务的性能高度依赖于检索质量,这意味着检索错误可能导致生成性能的下降。
未来方向
未来的研究方向包括提高嵌入模型在数学结构识别方面的能力,以及探索如何更好地结合检索和生成模型以增强数学推理能力。进一步的工作还可以关注如何扩展MathNet的数据集和基准,以涵盖更多的数学领域和语言。
AI 总览摘要
数学问题求解一直是大型语言模型和多模态模型推理能力的一个重要测试。然而,现有的基准在规模、语言覆盖和任务多样性方面存在局限。为此,我们引入了MathNet,一个高质量、大规模、多模态和多语言的奥数题目数据集,并为生成模型的数学推理和基于嵌入的数学检索提供了一个新的评估基准。
MathNet的数据集涵盖了47个国家的奥数题目,涉及17种语言和多个数学领域,包含30,676道由专家编写的问题及其解决方案。除了核心数据集,我们还构建了一个检索基准,由人类专家精心挑选的数学等价和结构相似的问题对组成。
实验结果显示,即使是最先进的推理模型,如Gemini-3.1-Pro和GPT-5,在奥数级别的问题上仍然面临挑战,而嵌入模型在检索等价问题时表现不佳。我们进一步表明,检索增强生成任务的性能对检索质量高度敏感,例如,DeepSeek-V3.2-Speciale在基准测试中取得了最高分,性能提升高达12%。
MathNet不仅提供了最大的高质量奥数数据集,还首次为数学问题检索提供了基准。我们公开发布了数据集和基准,以促进学术界和工业界在数学推理和检索领域的研究。
尽管MathNet在推动数学推理研究方面具有重要意义,但当前模型在处理复杂数学结构和检索等价问题时仍存在挑战。未来的研究可以关注如何提高嵌入模型在数学结构识别方面的能力,以及如何更好地结合检索和生成模型以增强数学推理能力。
深度分析
研究背景
数学推理一直是人工智能领域的重要研究方向。早期的研究主要集中在文本基础的算术问题上,而近年来的研究则扩展到竞赛级别的推理、定理证明和多模态问题解决。现有的数据集可以大致分为三类:仅文本的基准、多模态基准和综合数据集。尽管这些数据集在一定程度上推动了数学推理的研究,但它们在规模、语言多样性和结构相似性注释方面仍然有限。MathNet通过提供一个大规模、多模态和多语言的奥数题目数据集,填补了这一空白。
核心问题
数学问题求解是评估AI推理能力的核心基准之一。然而,现有的奥数级别数据集通常来自社区平台,如AoPS,覆盖的竞赛数量有限,主要集中在美国和中国。这限制了研究的进展,因为缺乏开放、高质量和多样化的基准。MathNet通过从47个国家收集的奥数题目,提供了一个前所未有的基础,用于探索数学泛化和类比推理。
核心创新
MathNet的核心创新在于其全球多模态和多语言的覆盖范围,以及首次引入的数学问题检索基准。与现有的奥数数据集不同,MathNet不仅规模更大,而且在语言和任务多样性上也更为丰富。它支持三个任务:问题求解、数学感知检索和检索增强问题求解。通过提供一个大规模的高质量奥数数据集,MathNet为生成模型的数学推理和基于嵌入的数学检索提供了一个新的评估平台。
方法详解
- �� MathNet-Solve:包含30,676道奥数级别的数学问题,附有LaTeX和自然语言陈述、专家解决方案和元数据,覆盖47个国家、17种语言和65多个数学领域。
- �� MathNet-Retrieve:一个检索数据集,由10,000个锚点问题衍生出的40,000个额外的合成问题组成,每个锚点问题配对1个等价正样本和3个难负样本。
- �� MathNet-RAG:一个评估数据集,由35个锚点问题和35个专家配对的真实问题组成,全部来自MathNet-Solve。
实验设计
实验设计包括对27个模型在MathNet-Solve、MathNet-Retrieve和MathNet-RAG上的评估。在MathNet-Solve上,我们评估了两类模型:文本模型和多模态模型。在MathNet-Retrieve上,我们使用来自多种最先进模型的嵌入来评估检索性能。在MathNet-RAG上,我们限制评估为七个最先进的开源和专有模型,因为该基准需要人工评分。
结果分析
在MathNet-Solve上,最强的模型是Gemini-3.1-Pro,达到76.3%的整体准确率。MathNet-Retrieve在top-1水平上仍然具有挑战性,即使是最强的模型也仅达到约5%的Recall@1。在MathNet-RAG上,Expert-RAG是最强的设置,DeepSeek-V3.2-Speciale在人工评分下达到97.3%的最佳结果。
应用场景
MathNet的数据集和基准为学术界和工业界提供了一个重要的资源,特别是在生成模型的数学推理和基于嵌入的数学检索方面。它可以用于评估和改进现有的数学推理模型,并为开发新的数学推理和检索方法提供基础。
局限与展望
尽管MathNet在推动数学推理研究方面具有重要意义,但当前模型在处理复杂数学结构和检索等价问题时仍存在挑战。检索增强生成任务的性能高度依赖于检索质量,这意味着检索错误可能导致生成性能的下降。未来的研究可以关注如何提高嵌入模型在数学结构识别方面的能力,以及如何更好地结合检索和生成模型以增强数学推理能力。
通俗解读 非专业人士也能看懂
想象一下你在厨房里准备一顿大餐。你有很多食材(就像MathNet的数据集),每一种食材都有不同的味道和用途(就像不同的数学问题)。你需要根据食谱(就像模型的算法)来选择和组合这些食材,以做出美味的菜肴(就像解决数学问题)。
然而,有时候你可能会遇到一些挑战,比如找不到某种食材(就像模型难以检索到等价问题),或者不确定某种食材的最佳用法(就像模型在数学推理中遇到的困难)。
为了克服这些挑战,你可以尝试不同的组合和烹饪方法(就像在模型中进行实验和调整参数),或者参考其他厨师的经验(就像在检索增强生成任务中使用检索到的相关问题)。
最终,通过不断的尝试和改进,你可以做出一顿美味的佳肴(就像在数学推理任务中取得成功)。MathNet就像是一个丰富的食材库,为你提供了无限的可能性。
简单解释 像给14岁少年讲一样
嘿,小伙伴!你知道吗,数学不仅仅是课堂上的那些公式和题目,它其实就像一个超级有趣的解谜游戏!想象一下,你有一个巨大的拼图,每一块拼图代表一个数学问题,而MathNet就是一个巨大的拼图库,里面有来自世界各地的拼图块。
现在,想象一下你是一个拼图大师,你需要用这些拼图块来完成一个超级复杂的拼图。每次你找到一块合适的拼图块,就像是解决了一个数学问题。可是,有时候你可能会发现,有些拼图块看起来很相似,但其实并不匹配,这就像模型在检索等价问题时遇到的挑战。
为了帮助你更快地完成拼图,你可以使用一些小技巧,比如先找到边缘的拼图块(就像在模型中使用检索增强生成任务),这样可以更快地搭建出拼图的框架。
所以,MathNet就像是一个超级酷的拼图库,帮助你在数学的世界里探索和发现更多的乐趣!
术语表
MathNet
一个全球多模态和多语言的奥数题目数据集,用于评估生成模型的数学推理和基于嵌入的数学检索。
作为本文的核心数据集和基准。
多模态
涉及多种数据形式(如文本、图像)的处理和分析。
MathNet支持多模态问题解决。
检索增强生成
通过检索相关问题来增强生成模型的推理能力。
在MathNet中用于提高数学推理的性能。
嵌入模型
将数据(如文本)转换为向量表示的模型,用于相似性计算和检索。
用于MathNet的数学感知检索任务。
等价问题
在数学结构上相同或相似的问题。
MathNet的检索基准中包含的内容。
Recall@k
检索任务中,前k个结果中包含正确答案的比例。
用于评估MathNet-Retrieve的性能。
生成模型
能够生成文本或其他数据形式的模型。
用于MathNet的数学推理任务。
奥数
奥林匹克数学竞赛的简称,代表高难度的数学问题。
MathNet的数据集来源。
结构相似性
在数学问题中,指问题在结构上的相似性,而非表面形式。
MathNet-Retrieve任务中的关键概念。
多语言
支持多种语言的数据集或系统。
MathNet覆盖17种语言。
开放问题 这项研究留下的未解疑问
- 1 如何提高嵌入模型在数学结构识别方面的能力仍然是一个开放问题。当前的方法在处理复杂的数学结构时表现不佳,需要新的技术来增强模型的结构识别能力。
- 2 检索增强生成任务的性能高度依赖于检索质量,这意味着检索错误可能导致生成性能的下降。如何提高检索的准确性仍然是一个挑战。
- 3 现有的多模态模型在处理符号任务时的表现有限,如何更好地整合多模态信息以增强数学推理能力仍需探索。
- 4 虽然MathNet为数学推理提供了一个新的评估平台,但如何扩展数据集以涵盖更多的数学领域和语言仍然是一个开放问题。
- 5 在数学问题检索中,如何更好地识别和检索等价问题仍然是一个挑战,特别是在处理复杂的数学结构时。
应用场景
近期应用
数学推理模型评估
MathNet可以用于评估现有的数学推理模型,帮助研究人员识别模型的优缺点,并指导模型的改进。
教育工具开发
利用MathNet的数据集和基准,可以开发新的教育工具,帮助学生提高数学推理能力。
数学竞赛准备
MathNet的数据集可以用于数学竞赛的准备,帮助学生练习和提高解决复杂数学问题的能力。
远期愿景
跨语言数学教育
MathNet的多语言支持可以促进跨语言的数学教育,帮助不同语言背景的学生更好地学习数学。
智能数学助理
通过结合MathNet的数据集和基准,可以开发智能数学助理,帮助用户解决复杂的数学问题。
原文摘要
Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts. MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.
参考文献 (20)
SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval
Thibault Formal, C. Lassance, Benjamin Piwowarski 等
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts
Pan Lu, Hritik Bansal, Tony Xia 等
CMMLU: Measuring massive multitask language understanding in Chinese
Haonan Li, Yixuan Zhang, Fajri Koto 等
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models
Daman Arora, H. Singh, Mausam
C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu 等
AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models
Wanjun Zhong, Ruixiang Cui, Yiduo Guo 等
Unsupervised Dense Information Retrieval with Contrastive Learning
Gautier Izacard, Mathilde Caron, Lucas Hosseini 等
Training Verifiers to Solve Math Word Problems
K. Cobbe, Vineet Kosaraju, Mo Bavarian 等
MMMU: A Massive Multi-Discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI
Xiang Yue, Yuansheng Ni, Kai Zhang 等
Measuring Mathematical Problem Solving With the MATH Dataset
Dan Hendrycks, Collin Burns, Saurav Kadavath 等
Datasets
S. Stowell
Measuring Massive Multitask Language Understanding
Dan Hendrycks, Collin Burns, Steven Basart 等
ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT
O. Khattab, M. Zaharia
Dense Passage Retrieval for Open-Domain Question Answering
Vladimir Karpukhin, Barlas Oğuz, Sewon Min 等
Paper
N. Cambridge
NuminaMath: The largest public dataset in AI4Maths with 860k pairs of competition math problems and solutions
Jia Li, E. Beeching, Lewis Tunstall 等
dots.ocr: Multilingual Document Layout Parsing in a Single Vision-Language Model
Yumeng Li, Guang Yang, Hao Liu 等
OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems
Chaoqun He, Renjie Luo, Yuzhuo Bai 等
Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset
Ke Wang, Junting Pan, Weikang Shi 等
被引用 (1)
The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors