ScholarQuest: A Taxonomy-Guided Benchmark for Agentic Academic Paper Search in Open Literature Environments

TL;DR

ScholarQuest基于分类体系，涵盖1000+计算机科学主题，采用多样化查询设计，构建自动化答案，提升学术搜索的系统评估能力。

cs.IR 🔴 高级 2026-06-18 11 次浏览

Tingyue Pan Mingyue Cheng Daoyu Wang Yitong Zhou Jie Ouyang Qi Liu Enhong Chen

学术检索基准测试大规模数据集分类体系多轮检索

核心发现

方法论

本研究提出了ScholarQuest，一种基于学科分类体系的学术论文搜索基准。该方法通过整合超过1000个计算机科学主题，设计四类研究意图（方法导向、场景锚定、对比分析、范围控制），实现多样化、可控的查询生成。利用自动化流程，包括多源检索、引文扩展、相关性过滤和质量验证，构建了百万级的论文答案库ScholarBase，确保评估的可复现性。基准采用多轮交互式检索模型，结合特定算法如BM25、Dense Retrieval（基于BGE-M3嵌入）和RRF融合策略，系统评估了不同学术搜索系统的性能。通过在ScholarQuest上的广泛实验，验证了agentic方法优于单次检索基线，但仍存在召回率不足（最高Recall@100仅0.314），显示出巨大改进空间。

关键结果

基准评估显示，最优agentic方法在Recall@100达到0.314，Recall@All为0.355，明显优于传统单次检索（如Google Scholar，Recall@100仅0.010），但整体表现仍有限，反映出多轮交互和引文扩展的重要性。
不同查询意图对检索效果影响显著，方法导向和场景锚定查询表现较好（Recall@100超过0.3），而范围控制查询表现较差（Recall@100约0.19），揭示了复杂范围控制任务的挑战。
分析发现，搜索效率与工具调用次数、候选集规模密切相关，PaperScout在工具调用和交互轮次方面表现优异，Recall效率最高（每100候选召回0.120），验证了自适应工具策略的有效性。

研究意义

该研究填补了学术论文搜索评估中缺乏系统性、多维度指标的空白。通过引入分类体系导向的多样化查询设计和自动化答案构建，提供了标准化、可复现的评估环境，为未来智能学术搜索系统的研发提供了坚实基础。其多轮交互和引文扩展机制，有望推动学术信息检索从静态匹配向动态推理转变，促进科研效率提升。此外，基准的开放性支持社区在不同模型、算法和策略上的公平比较，加速了学术搜索技术的创新。

技术贡献

本研究的核心技术创新在于提出基于学科分类体系的多意图查询生成框架，结合自动化的多源检索、引文扩展和多轮过滤机制，构建了规模庞大的学术论文评测平台。引入的自动化流程显著降低了高质量答案集的构建成本，提升了答案的覆盖率和精确度。采用的多模态检索策略（如BM25与Dense Embedding结合）以及多轮交互决策模型，增强了系统在复杂查询场景下的表现能力。通过标准化的评估指标体系（包括Recall@k、搜索效率、鲁棒性等），实现了对学术搜索系统的全面评价。该平台不仅支持不同检索算法的公平比较，还为未来多轮推理和知识融合提供了技术基础。

新颖性

本研究首次系统性地引入学科分类体系指导的多意图查询设计，结合自动化答案构建流程，建立了大规模、可复现的学术搜索评测平台。与现有基准（如AutoScholar、RealScholar）相比，ScholarQuest在主题覆盖范围、查询多样性和环境标准化方面具有显著优势。其创新点在于通过分类体系实现查询意图的精细控制，结合多源检索与引文扩展，显著提升检索的全面性和鲁棒性。这一方法突破了传统单次检索的局限，为学术搜索的多轮交互和推理提供了新的技术路径。

局限性

尽管ScholarQuest在规模和多样性方面取得突破，但其自动化答案构建依赖于引文关系和过滤模型，可能在某些边缘案例中出现偏差，影响评估的准确性。
当前的检索策略主要基于文本匹配和嵌入相似度，尚未充分融合图结构信息（如引文网络、合作关系），限制了复杂关系的捕获能力。
多轮交互模型在处理范围控制和高复杂度查询时表现仍有限，未来需引入更强的推理和知识融合机制以提升鲁棒性。

未来方向

未来，作者计划引入更丰富的学科知识图谱，结合图神经网络提升引文关系的利用效率。同时，将探索深度学习模型在多轮推理中的应用，增强系统对复杂查询的理解能力。此外，扩展基准到其他学科领域，丰富多样的研究意图，推动多模态、多任务的学术搜索技术发展。最后，期待在实际科研环境中部署多轮交互系统，验证其在科研工作中的实用性和效率提升潜力。

AI 总览摘要

在科学研究中，学术论文的检索一直是推动知识发现的核心环节。传统方法多依赖关键词匹配和简单排序，难以满足复杂、多样化的科研需求。随着大规模语言模型（LLM）和智能搜索代理的发展，学术搜索逐渐向多轮交互、意图驱动的方向演进。然而，现有的评测基准在真实开放环境下的系统性和多维度评估方面仍显不足。

本研究提出了ScholarQuest，一种基于学科分类体系的高规模、多意图、多场景的学术论文搜索评估平台。该平台涵盖超过1000个计算机科学主题，设计了四类研究意图（方法导向、场景锚定、对比分析、范围控制），实现了查询的多样性和可控性。通过自动化流程，包括多源检索、引文扩展、相关性过滤和质量验证，构建了百万级的答案库ScholarBase，确保评估的可复现性和规模化。

在实验中，基于该基准评估了多种检索系统，包括传统的BM25、Dense Embedding和混合检索，以及多轮交互的agentic方法如PaperScout、SPAR和PaSa。结果显示，agentic方法在Recall@100达到0.314，明显优于单次检索（如Google Scholar，Recall@100仅0.010），但整体表现仍有提升空间。不同查询意图下，复杂范围控制任务的检索效果最差，反映出当前模型在高难度场景中的局限。

此外，分析还揭示了搜索效率与工具调用频次、候选集规模密切相关。PaperScout通过自适应工具调用策略，实现了最高的召回效率。多轮交互和引文扩展机制显著提升了检索的全面性和鲁棒性。尽管如此，范围控制和高复杂度查询仍是未来突破的重点。

该基准的提出，为学术搜索系统的公平、全面评估提供了新平台。其多维指标体系（包括召回率、搜索效率、鲁棒性等）有助于推动学术信息检索技术的创新。未来，结合知识图谱、深度推理和跨学科扩展，有望实现更智能、更高效的科研信息获取工具，极大地促进科学研究的效率与创新。

深度解读

原文摘要

Academic paper search is a core step in scientific research, and LLM-based search agents are emerging as a promising paradigm for iterative, intent-driven literature exploration. However, existing benchmarks are insufficient for systematically evaluating agentic academic search under realistic open literature environments. We propose ScholarQuest, a large-scale, taxonomy-guided benchmark for agentic academic paper search. ScholarQuest is constructed from over 1,000 computer science topics and four representative research intents, including method-oriented, setting-anchored, comparison-based, and scope-controlled queries. It further provides scalable answer construction and a shared retrieval backend ScholarBase for reproducible evaluation. Benchmarking results show that agentic methods outperform single-shot retrieval baselines, yet the best-performing agent only achieves 0.314 Recall@100 and 0.355 Recall@All, indicating substantial room for improvement. In addition, analyses of search efficiency, intent-level robustness, and failure cases further highlight the benchmark's ability to provide multi-dimensional evaluation signals for academic paper search agents.

cs.IR cs.AI

ScholarQuest: A Taxonomy-Guided Benchmark for Agentic Academic Paper Search in Open Literature Environments

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

相关论文

ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval

Do Generative Recommenders Deepen the Information Cocoon? A Closed-Loop Simulation with LLM-powered User Simulators

A Theoretical Framework for Risk Analysis of Stochastic Rankers

CQC-RAG: Robust Retrieval-Augmented Generation via Cross-Query Consistency

miniReranker: Efficient Multimodal Reranking through Visual Cache Reuse and Interaction Sparsity

SkillResolve-Bench: Measuring and Resolving Same-Capability Ambiguity in Agent Skill Retrieval