AgentSearchBench: A Benchmark for AI Agent Search in the Wild

TL;DR

AgentSearchBench通过执行信号提高代理搜索排名质量，填补语义与性能之间的差距。

cs.AI 🔴 高级 2026-04-24 27 次浏览

Bin Wu Arastun Mammadli Xiaoyu Zhang Emine Yilmaz

AI代理搜索基准执行信号语义差距排名优化

核心发现

方法论

AgentSearchBench将代理搜索问题形式化为检索和重排序问题，使用执行信号而非文本相似性来评估相关性。该基准从近10,000个真实世界代理中构建，支持可执行任务查询和高层次任务描述。通过执行信号生成细粒度的相关性注释，AgentSearchBench提供了一个可扩展的评估管道。

关键结果

实验表明，语义相似性与实际代理性能之间存在一致的差距，说明基于描述的检索和重排序方法的局限性。
轻量级行为信号，包括执行感知探测，可以显著提高排名质量，强调将执行信号纳入代理发现的重要性。
在任务查询上，工具感知检索器优于稀疏和密集基线，而在任务描述上，密集检索器表现更具竞争力，BGE取得了最强的整体性能。

研究意义

AgentSearchBench为开放生态系统中的代理搜索提供了一个大规模基准，揭示了语义与性能之间的显著差距。该研究强调了将执行信号纳入代理发现管道的重要性，为学术界和工业界提供了新的视角，尤其是在处理抽象和多步骤任务时。

技术贡献

AgentSearchBench通过将代理搜索形式化为一个依赖执行的能力不确定性问题，提供了新的技术贡献。该基准支持可执行任务查询和高层次任务描述，并通过执行结果来定义相关性，提供了与现有方法的根本区别。

新颖性

AgentSearchBench首次将代理搜索问题形式化为一个依赖执行的检索和重排序问题，强调了语义相似性与实际性能之间的差距。与现有基准不同，该研究通过执行信号提供了更真实的代理搜索场景。

局限性

AgentSearchBench在处理高层次任务描述时，性能显著下降，表明在没有明确可执行需求的情况下，检索代理的难度较大。
现有的检索和重排序方法在捕捉执行依赖的能力方面仍然有限，特别是对于抽象和多步骤任务。

未来方向

未来的研究方向包括开发更强大的执行感知信号，以进一步提高代理搜索的排名质量。此外，探索如何在更大规模和更复杂的任务环境中应用AgentSearchBench也是一个值得关注的方向。

AI 总览摘要

随着AI代理系统的快速发展，人类在完成复杂任务时越来越依赖于这些自主代理。然而，如何为特定任务选择合适的代理成为了一个关键挑战。传统工具的功能通常限定在特定操作上，而代理的能力往往是组合的且依赖于执行，这使得仅通过文本描述来评估其能力变得困难。

现有的研究和基准通常假设功能明确、候选池受控或仅限于可执行的任务查询，这使得对现实代理搜索场景的研究不足。为此，我们引入了AgentSearchBench，一个大规模的代理搜索基准，从近10,000个来自多个提供商的真实世界代理中构建而成。该基准通过可执行任务查询和高层次任务描述，将代理搜索形式化为检索和重排序问题，并使用执行信号来评估相关性。

实验揭示了语义相似性与实际代理性能之间的一致差距，暴露了基于描述的检索和重排序方法的局限性。我们进一步展示了轻量级行为信号，包括执行感知探测，可以显著提高排名质量，强调了将执行信号纳入代理发现的重要性。

尽管取得了显著进展，AgentSearchBench在处理高层次任务描述时，性能显著下降，表明在没有明确可执行需求的情况下，检索代理的难度较大。未来的研究方向包括开发更强大的执行感知信号，以进一步提高代理搜索的排名质量。此外，探索如何在更大规模和更复杂的任务环境中应用AgentSearchBench也是一个值得关注的方向。

深度分析

研究背景

随着人工智能技术的快速发展，AI代理系统在各个领域的应用越来越广泛。这些代理不仅能够进行推理和规划，还可以与外部工具和服务进行交互，以完成多步骤的目标。现代代理系统的进步导致了代理组件生态系统的快速扩展，从通用助手到高度专业化的任务导向模块。随着人们越来越依赖于由不同第三方提供商开发的代理，一个基本的挑战出现了：如何为特定任务选择合适的代理。传统工具的功能通常限定在特定操作上，而代理的能力往往是组合的且依赖于执行，这使得仅通过文本描述来评估其能力变得困难。文本描述仅提供了实际能力的一部分信号，具有相似描述的代理在实践中可能表现不同，而语义上不相似的代理可以取得相似的结果。这种语义与性能的不匹配在大型开放代理生态系统中进一步放大，在这些系统中，功能重叠和描述格式不统一使得能力比较变得困难。因此，代理搜索比传统工具检索或模型选择更为复杂。

核心问题

代理搜索的核心问题在于如何从大量候选代理中检索和排序出适合特定任务的代理。传统的信息检索通常通过静态内容匹配来确定相关性，而代理搜索需要通过任务执行来评估功能能力。代理搜索需要在可执行任务查询和高层次任务描述下操作。可执行任务查询是可以直接通过运行代理来评估的具体指令，而高层次任务描述则是不能直接执行的输入。为了在这些设置下评估代理能力，每个任务描述都与一组可执行任务查询相关联，这些查询在不同具体场景下实现高层次目标。代理的相关性是基于其在这些任务实例中的一致表现来确定的，而不是依赖于文本相似性或单一任务结果。

核心创新

AgentSearchBench的核心创新在于：

1. 将代理搜索形式化为一个依赖执行的检索和重排序问题，强调了语义相似性与实际性能之间的差距。

2. 构建了一个大规模基准，包含近10,000个真实世界代理，支持可执行任务查询和高层次任务描述，并通过执行信号来定义相关性。

3. 提供了一个可扩展的评估管道，通过生成任务实例并将执行结果转换为细粒度的相关性注释来进行检索和排名评估。

4. 通过轻量级行为信号，包括执行感知探测，显著提高了排名质量，强调了将执行信号纳入代理发现的重要性。

方法详解

�� 构建AgentSearchBench：从多个提供商收集近10,000个真实世界代理，形成一个大规模的代理库。
�� 任务查询构建：从代理文档中合成可执行任务查询，使用文档驱动的任务生成方法。
�� 相关性注释：通过执行信号生成细粒度的相关性注释，使用5点LLM-as-judge进行评估。
�� 任务描述构建：通过从语义相关的查询集群中抽象高层次目标来构建任务描述。
�� 检索和重排序评估：使用执行信号进行检索和重排序评估，报告精度、召回率、NDCG和完整性。

实验设计

实验设计包括使用AgentSearchBench进行广泛的基准测试，评估不同检索和重排序方法在可执行任务查询和高层次任务描述上的性能。使用的基线包括稀疏、密集、工具感知和解码器嵌入模型。实验在每个查询上评估平均20个代理的执行性能，总共进行了66,740次执行。使用的评估指标包括精度、召回率、NDCG和完整性。实验还包括对轻量级行为信号的研究，探讨其对排名质量的影响。

结果分析

实验结果表明，在任务查询上，工具感知检索器优于稀疏和密集基线，而在任务描述上，密集检索器表现更具竞争力，BGE取得了最强的整体性能。然而，当从可执行查询转向高层次任务描述时，性能显著下降，完整性在所有方法中仍然较低，突显了检索能够完全满足抽象需求的代理的难度。结果表明，虽然检索可以捕捉粗略的相关性，但在识别具有全面任务解决能力的代理方面仍然存在困难，特别是在没有明确可执行需求的高层次任务规格下。

应用场景

AgentSearchBench的应用场景包括：

1. 在开放生态系统中进行代理搜索，支持可执行任务查询和高层次任务描述。

2. 为学术研究提供一个大规模基准，以评估不同检索和重排序方法的性能。

3. 为工业界提供一种工具，以在复杂任务环境中选择合适的代理，特别是在处理抽象和多步骤任务时。

局限与展望

AgentSearchBench的局限性包括：

1. 在处理高层次任务描述时，性能显著下降，表明在没有明确可执行需求的情况下，检索代理的难度较大。

2. 现有的检索和重排序方法在捕捉执行依赖的能力方面仍然有限，特别是对于抽象和多步骤任务。

3. 在更大规模和更复杂的任务环境中应用AgentSearchBench仍然是一个挑战，未来的研究需要探索如何在这些环境中提高代理搜索的排名质量。

通俗解读非专业人士也能看懂

想象你在一个巨大的超市里，货架上摆满了各种各样的商品。你需要找到一种特定的商品，比如一种罕见的香料。传统的方法是通过商品的标签和描述来寻找，但有时候这些描述并不能准确反映商品的实际效果。AgentSearchBench就像是一个聪明的购物助手，它不仅仅依赖于标签，而是通过实际使用这些商品来判断它们是否符合你的需求。

在这个超市里，有些商品的标签可能相似，但实际使用效果却大相径庭。AgentSearchBench通过让这些商品在真实的烹饪场景中进行测试，来评估它们的实际表现。这就像是让每种香料都参与一次烹饪比赛，看看哪种香料在不同的菜肴中表现最好。

通过这种方式，AgentSearchBench可以帮助你更准确地找到最适合你的香料，而不是仅仅依赖于商品的标签和描述。它不仅考虑了商品的描述，还结合了实际使用的效果，为你提供更可靠的选择建议。

这种方法的好处在于，它能够识别出那些标签相似但效果不同的商品，也能发现那些标签不同但效果相似的商品，为你提供更全面的购物体验。

简单解释像给14岁少年讲一样

想象一下，你在一个巨大的游戏商店里，想为你的游戏角色找到最酷的装备。商店里有成千上万种装备，每种都有自己的描述和标签。你可能会想，为什么不直接根据标签来选择呢？但问题是，有时候这些标签并不能准确反映装备的实际效果。

AgentSearchBench就像是一个超级聪明的游戏助手。它不仅仅依赖于装备的标签，而是通过实际测试这些装备在游戏中的表现来帮助你选择。比如，它会让每件装备在不同的游戏场景中进行测试，看看哪件装备在战斗中表现最好。

通过这种方式，AgentSearchBench可以帮助你找到最适合你的装备，而不是仅仅依赖于标签。它就像是一个游戏中的“装备裁判”，为你提供更可靠的选择建议。

这种方法的好处在于，它能够识别出那些标签相似但效果不同的装备，也能发现那些标签不同但效果相似的装备，为你提供更全面的游戏体验。

术语表

AgentSearchBench

AgentSearchBench是一个大规模基准，用于在开放生态系统中进行代理搜索，支持可执行任务查询和高层次任务描述。

在论文中，AgentSearchBench用于评估不同检索和重排序方法在代理搜索中的性能。

执行信号

执行信号是通过代理在实际任务中的表现来评估其能力，而不是仅仅依赖于文本描述。

在AgentSearchBench中，执行信号用于生成细粒度的相关性注释。

语义相似性

语义相似性指的是代理描述与任务描述在语义上的相似程度，但这并不总是反映代理的实际性能。

实验揭示了语义相似性与实际代理性能之间的一致差距。

轻量级行为信号

轻量级行为信号是通过代理的执行表现来增强描述基础的排名，显著提高排名质量。

研究表明，轻量级行为信号可以显著提高排名质量。

可执行任务查询

可执行任务查询是可以直接通过运行代理来评估的具体指令。

AgentSearchBench支持可执行任务查询和高层次任务描述。

高层次任务描述

高层次任务描述是不能直接执行的输入，需要通过关联的可执行任务查询来评估代理能力。

在高层次任务描述下，检索代理的难度较大。

检索和重排序

检索和重排序是指从大量候选代理中检索和排序出适合特定任务的代理。

AgentSearchBench将代理搜索形式化为检索和重排序问题。

工具感知检索器

工具感知检索器是一种结合工具使用信息的检索方法，通常在可执行任务查询上表现优于其他基线。

在任务查询上，工具感知检索器优于稀疏和密集基线。

BGE

BGE是一种密集检索器，在任务描述上表现更具竞争力，取得了最强的整体性能。

在任务描述上，BGE取得了最强的整体性能。

NDCG

NDCG是一种评估排名质量的指标，衡量检索结果的相关性和排序准确性。

实验使用NDCG作为评估指标之一。

开放问题这项研究留下的未解疑问

1 如何在没有明确可执行需求的高层次任务描述下提高代理搜索的性能仍然是一个开放问题。现有方法在捕捉执行依赖的能力方面仍然有限，特别是对于抽象和多步骤任务。
2 在更大规模和更复杂的任务环境中应用AgentSearchBench仍然是一个挑战。需要探索如何在这些环境中提高代理搜索的排名质量。
3 如何开发更强大的执行感知信号，以进一步提高代理搜索的排名质量。现有的轻量级行为信号虽然有效，但在处理复杂任务时可能仍有不足。
4 如何在开放生态系统中更好地处理功能重叠和描述格式不统一的问题。现有方法在这些情况下的性能可能会受到影响。
5 如何在代理搜索中更好地结合文本描述与执行信号，以提供更全面的能力评估。现有方法在这方面的结合可能仍然不够充分。

应用场景

近期应用

开放生态系统中的代理搜索

AgentSearchBench可以用于在开放生态系统中进行代理搜索，支持可执行任务查询和高层次任务描述，为学术研究和工业应用提供支持。

代理能力评估

通过执行信号来评估代理的能力，为开发者和用户提供更准确的能力评估，帮助选择合适的代理。

排名质量优化

通过轻量级行为信号来优化代理搜索的排名质量，提高检索和重排序方法的性能，特别是在处理复杂任务时。

远期愿景

复杂任务环境中的应用

探索如何在更大规模和更复杂的任务环境中应用AgentSearchBench，提高代理搜索的排名质量。

执行感知信号的开发

开发更强大的执行感知信号，以进一步提高代理搜索的排名质量，特别是在处理抽象和多步骤任务时。

原文摘要

The rapid growth of AI agent ecosystems is transforming how complex tasks are delegated and executed, creating a new challenge of identifying suitable agents for a given task. Unlike traditional tools, agent capabilities are often compositional and execution-dependent, making them difficult to assess from textual descriptions alone. However, existing research and benchmarks typically assume well-specified functionalities, controlled candidate pools, or only executable task queries, leaving realistic agent search scenarios insufficiently studied. We introduce AgentSearchBench, a large-scale benchmark for agent search in the wild, built from nearly 10,000 real-world agents across multiple providers. The benchmark formalizes agent search as retrieval and reranking problems under both executable task queries and high-level task descriptions, and evaluates relevance using execution-grounded performance signals. Experiments reveal a consistent gap between semantic similarity and actual agent performance, exposing the limitations of description-based retrieval and reranking methods. We further show that lightweight behavioral signals, including execution-aware probing, can substantially improve ranking quality, highlighting the importance of incorporating execution signals into agent discovery. Our code is available at https://github.com/Bingo-W/AgentSearchBench.

cs.AI cs.IR cs.MA

参考文献 (20)

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Yujia Qin, Shi Liang, Yining Ye 等

2023 1431 引用 ⭐ 高影响力查看解读 →

A Survey on LLM-as-a-Judge

Jiawei Gu, Xuhui Jiang, Zhichao Shi 等

2024 1242 引用 ⭐ 高影响力查看解读 →

Natural Language Inference as a Judge: Detecting Factuality and Causality Issues in Language Model Self-Reasoning for Financial Analysis

Yilin Wu, Han Yuan, Li Zhang 等

2025 3 引用 ⭐ 高影响力

Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

Zhengliang Shi, Yuhan Wang, Lingyong Yan 等

2025 17 引用 ⭐ 高影响力查看解读 →

Towards Completeness-Oriented Tool Retrieval for Large Language Models

Changle Qu, Sunhao Dai, Xiaochi Wei 等

2024 21 引用 ⭐ 高影响力查看解读 →

Tools are under-documented: Simple Document Expansion Boosts Tool Retrieval

Xuan Lu, Haohang Huang, Rui Meng 等

2025 5 引用查看解读 →

A Joint Optimization Framework for Enhancing Efficiency of Tool Utilization in LLM Agents

Bin Wu, E. Meij, Emine Yilmaz

2025 9 引用

ToolRerank: Adaptive and Hierarchy-Aware Reranking for Tool Retrieval

Yuanhang Zheng, Peng Li, Wei Liu 等

2024 33 引用查看解读 →

Document Ranking with a Pretrained Sequence-to-Sequence Model

Rodrigo Nogueira, Zhiying Jiang, Ronak Pradeep 等

2020 756 引用查看解读 →

AgentSquare: Automatic LLM Agent Search in Modular Design Space

Yu Shang, Yu Li, Keyu Zhao 等

2024 77 引用查看解读 →

MasRouter: Learning to Route LLMs for Multi-Agent Systems

Yanwei Yue, Gui-Min Zhang, Boyang Liu 等

2025 43 引用查看解读 →

OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation

Mengkang Hu, Yuhang Zhou, Wendong Fan 等

2025 109 引用查看解读 →

Fine-Tuning LLaMA for Multi-Stage Text Retrieval

Xueguang Ma, Liang Wang, Nan Yang 等

2023 379 引用查看解读 →

Automated Composition of Agents: A Knapsack Approach for Agentic Component Selection

Michelle Yuan, Khushbu Pahwa, Shuaichen Chang 等

2025 3 引用查看解读 →

Large Dual Encoders Are Generalizable Retrievers

Jianmo Ni, Chen Qu, Jing Lu 等

2021 599 引用查看解读 →

PLAY2PROMPT: Zero-shot Tool Instruction Optimization for LLM Agents via Tool Play

Wei-Wen Fang, Yang Zhang, Kaizhi Qian 等

2025 7 引用查看解读 →

C-Pack: Packed Resources For General Chinese Embeddings

Shitao Xiao, Zheng Liu, Peitian Zhang 等

2023 525 引用查看解读 →

Improving Text Embeddings with Large Language Models

Liang Wang, Nan Yang, Xiaolong Huang 等

2023 348 引用查看解读 →

Multi-Field Tool Retrieval

Yichen Tang, Weihang Su, Yiqun Liu 等

2026 1 引用查看解读 →

Finance Agent Benchmark: Benchmarking LLMs on Real-world Financial Research Tasks

Antoine Bigeard, Langston Nashold, R. Krishnan 等

2025 21 引用查看解读 →

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

AgentSearchBench

执行信号

语义相似性

轻量级行为信号

可执行任务查询

高层次任务描述

检索和重排序

工具感知检索器

BGE

NDCG

开放问题 这项研究留下的未解疑问

应用场景

近期应用

开放生态系统中的代理搜索

代理能力评估

排名质量优化

远期愿景

复杂任务环境中的应用

执行感知信号的开发

原文摘要

参考文献 (20)

相关论文

Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity

A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

Large Language Models Exhibit Normative Conformity

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问