OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

TL;DR

OpenSeeker通过开放训练数据,利用可控问答合成和去噪轨迹合成,实现前沿搜索代理的民主化。

cs.AI 🔴 高级 2026-03-17 3 引用 129 次浏览
Yuwen Du Rui Ye Shuo Tang Xinyu Zhu Yijun Lu Yuzhu Cai Siheng Chen
开放源代码 大语言模型 搜索代理 问答合成 去噪轨迹

核心发现

方法论

OpenSeeker通过两项技术创新实现了前沿搜索代理的民主化:1) 基于事实的可扩展可控问答合成,通过拓扑扩展和实体混淆逆向工程网络图,生成复杂的多跳推理任务,具有可控的覆盖范围和复杂性。2) 去噪轨迹合成,采用回顾性总结机制去噪轨迹,从而促进教师大语言模型生成高质量的动作。

关键结果

  • OpenSeeker在仅使用11.7k合成样本进行单次训练后,在多个基准测试中实现了最先进的性能,包括BrowseComp、BrowseComp-ZH、xbench-DeepSearch和WideSearch。在BrowseComp上,OpenSeeker以29.5%的得分显著超过第二好的开源代理DeepDive的15.3%。
  • 在BrowseComp-ZH基准测试中,OpenSeeker以48.4%的得分超过了工业竞争对手如阿里巴巴的Tongyi DeepResearch(46.7%),后者通过广泛的持续预训练、SFT和RL进行训练。
  • OpenSeeker的训练数据和模型权重完全开源,旨在促进搜索代理研究的民主化,建立一个更加透明和协作的生态系统。

研究意义

OpenSeeker通过提供完整的训练数据和模型权重,打破了工业巨头在高性能搜索代理开发中的垄断地位。这项研究为学术界和开源社区提供了一个强大的工具,使他们能够在无需大量资源的情况下,开发出与工业级别相媲美的搜索代理。这不仅促进了搜索智能的民主化,也为未来的研究提供了一个开放和协作的平台。

技术贡献

OpenSeeker的技术贡献在于其创新的问答合成和轨迹去噪方法,这些方法不仅提高了数据的质量和复杂性,还使得模型能够在复杂的搜索任务中表现出色。与现有的最先进方法相比,OpenSeeker提供了新的理论保证和工程可能性,特别是在数据合成和去噪技术方面。

新颖性

OpenSeeker是第一个完全开源的搜索代理,提供了完整的训练数据和模型权重。与现有工作相比,其在问答合成和轨迹去噪方面的创新显著提高了数据的质量和复杂性,使得模型能够在复杂的搜索任务中表现出色。

局限性

  • 由于资源限制,OpenSeeker仅在单次训练运行中验证了其有效性,这限制了其在更具挑战性的数据上的验证。
  • 当前的训练数据量相对较小,尽管质量高,但在某些复杂任务中可能仍然不足以覆盖所有可能的场景。
  • 由于资源限制,英语数据尚未更新到最新的QA标准,导致其难度略低于中文数据。

未来方向

未来的研究方向包括扩展OpenSeeker的训练数据集,探索不同的参数和数据过滤策略,以进一步提高模型的性能。此外,随着资源的增加,可以进行更多次的训练运行,以验证其在更复杂数据上的有效性。

AI 总览摘要

在信息爆炸的时代,从互联网上获取准确、实时和可靠的信息已成为现代决策的重要支柱。然而,高性能搜索代理的开发一直被工业巨头垄断,这主要是由于缺乏透明的高质量训练数据。为了打破这一局面,OpenSeeker应运而生。它是第一个完全开源的搜索代理,通过开放训练数据和模型权重,实现了前沿性能。

OpenSeeker的核心技术创新包括基于事实的可扩展可控问答合成和去噪轨迹合成。前者通过拓扑扩展和实体混淆逆向工程网络图,生成复杂的多跳推理任务,具有可控的覆盖范围和复杂性。后者采用回顾性总结机制去噪轨迹,从而促进教师大语言模型生成高质量的动作。

实验结果表明,OpenSeeker在仅使用11.7k合成样本进行单次训练后,在多个基准测试中实现了最先进的性能,包括BrowseComp、BrowseComp-ZH、xbench-DeepSearch和WideSearch。特别是在BrowseComp-ZH基准测试中,OpenSeeker以48.4%的得分超过了工业竞争对手如阿里巴巴的Tongyi DeepResearch(46.7%)。

OpenSeeker的成功不仅在于其技术创新,还在于其对搜索智能民主化的贡献。通过提供完整的训练数据和模型权重,OpenSeeker为学术界和开源社区提供了一个强大的工具,使他们能够在无需大量资源的情况下,开发出与工业级别相媲美的搜索代理。

然而,由于资源限制,OpenSeeker仅在单次训练运行中验证了其有效性,这限制了其在更具挑战性的数据上的验证。未来的研究方向包括扩展训练数据集,探索不同的参数和数据过滤策略,以进一步提高模型的性能。

深度分析

研究背景

在信息检索领域,随着大语言模型(LLM)的发展,搜索代理的能力得到了显著提升。然而,这一领域的高性能搜索代理开发一直被少数工业巨头所垄断,主要原因在于缺乏透明和高质量的训练数据。现有的开源模型虽然提供了模型权重,但在训练数据上往往不够透明,或者数据质量不足以支持复杂的推理任务。这种数据匮乏严重阻碍了更广泛的研究社区在这一领域的发展和创新。

核心问题

核心问题在于如何打破工业巨头在高性能搜索代理开发中的垄断地位。具体来说,缺乏透明和高质量的训练数据是一个主要瓶颈。这不仅限制了学术界在这一领域的研究进展,也阻碍了开源社区开发出能够与工业级别相媲美的搜索代理。因此,提供一个完整的开源解决方案,包括高质量的训练数据和模型权重,是当前亟需解决的问题。

核心创新

OpenSeeker的核心创新在于其数据合成和去噪技术。首先,基于事实的可扩展可控问答合成通过拓扑扩展和实体混淆逆向工程网络图,生成复杂的多跳推理任务,具有可控的覆盖范围和复杂性。其次,去噪轨迹合成采用回顾性总结机制去噪轨迹,从而促进教师大语言模型生成高质量的动作。这些创新不仅提高了数据的质量和复杂性,还使得模型能够在复杂的搜索任务中表现出色。

方法详解

  • �� 基于事实的可扩展可控问答合成:通过拓扑扩展和实体混淆逆向工程网络图,生成复杂的多跳推理任务。
  • �� 去噪轨迹合成:采用回顾性总结机制去噪轨迹,促进教师大语言模型生成高质量的动作。
  • �� 数据集生成:合成10.3k英文和1.4k中文样本,进行监督微调(SFT)。
  • �� 实验验证:在BrowseComp、BrowseComp-ZH、xbench-DeepSearch和WideSearch等基准测试中进行性能评估。

实验设计

实验设计包括在多个基准测试上评估OpenSeeker的性能,如BrowseComp、BrowseComp-ZH、xbench-DeepSearch和WideSearch。使用的训练数据集包括10.3k英文和1.4k中文样本。基准测试主要评估模型在多步导航和复杂信息定位任务中的表现。实验还包括与其他开源和闭源模型的性能比较,以验证OpenSeeker的优越性。

结果分析

实验结果表明,OpenSeeker在多个基准测试中实现了最先进的性能。在BrowseComp上,OpenSeeker以29.5%的得分显著超过第二好的开源代理DeepDive的15.3%。在BrowseComp-ZH基准测试中,OpenSeeker以48.4%的得分超过了工业竞争对手如阿里巴巴的Tongyi DeepResearch(46.7%)。这些结果验证了OpenSeeker在数据合成和去噪技术上的创新性和有效性。

应用场景

OpenSeeker的应用场景包括学术研究和工业应用。在学术研究中,OpenSeeker提供了一个强大的工具,使研究人员能够在无需大量资源的情况下,开发出与工业级别相媲美的搜索代理。在工业应用中,OpenSeeker可以用于开发高性能的搜索引擎和信息检索系统,提高信息获取的效率和准确性。

局限与展望

尽管OpenSeeker在多个基准测试中表现出色,但由于资源限制,其仅在单次训练运行中验证了其有效性。这限制了其在更具挑战性的数据上的验证。此外,当前的训练数据量相对较小,尽管质量高,但在某些复杂任务中可能仍然不足以覆盖所有可能的场景。未来的研究方向包括扩展训练数据集,探索不同的参数和数据过滤策略,以进一步提高模型的性能。

通俗解读 非专业人士也能看懂

想象一下你在一个巨大的图书馆中寻找一本特定的书。这个图书馆有无数的书架,每个书架上都有成千上万的书。为了找到你需要的那本书,你需要一个非常聪明的助手,他不仅知道每本书的位置,还能快速找到相关的信息。这就是OpenSeeker的作用。它就像一个超级智能的图书馆助手,能够在互联网上快速找到你需要的信息。通过使用复杂的算法和技术,OpenSeeker能够在大量的数据中找到最相关的信息,并以一种易于理解的方式呈现给你。就像在图书馆中找到一本书一样,OpenSeeker能够帮助你在互联网上找到你需要的信息,无论这个信息藏在哪里。

简单解释 像给14岁少年讲一样

嘿,小伙伴!你知道吗,OpenSeeker就像是一个超级聪明的网络侦探!想象一下,你在网上找一个特别难找的信息,就像在一个巨大的迷宫里找宝藏一样。普通的搜索引擎可能会迷路,但OpenSeeker有一个超强的大脑,它能快速分析各种信息,就像侦探用放大镜找线索一样。它会把复杂的问题分解成小问题,然后一个一个解决,就像拼图一样,最后帮你找到答案!而且,它还会把所有的过程都记录下来,这样下次遇到类似的问题,它就能更快地找到答案。是不是很酷?

术语表

OpenSeeker

OpenSeeker是一个完全开源的搜索代理,提供完整的训练数据和模型权重,旨在实现前沿性能。

在论文中,OpenSeeker被用作一个示例,展示如何通过开放训练数据实现高性能搜索代理。

大语言模型 (LLM)

大语言模型是一种能够理解和生成自然语言文本的人工智能模型,通常具有数十亿参数。

在OpenSeeker中,LLM被用作教师模型,生成高质量的动作。

可控问答合成

可控问答合成是一种生成复杂、多跳推理任务的方法,具有可控的覆盖范围和复杂性。

在OpenSeeker中,这种方法用于生成训练数据。

去噪轨迹合成

去噪轨迹合成是一种通过回顾性总结机制去噪轨迹的方法,促进教师大语言模型生成高质量的动作。

在OpenSeeker中,这种方法用于提高数据的质量和复杂性。

BrowseComp

BrowseComp是一个基准测试,用于评估模型在多步导航和复杂信息定位任务中的表现。

在实验中,OpenSeeker在BrowseComp上表现出色。

BrowseComp-ZH

BrowseComp-ZH是一个中文基准测试,用于评估模型在多步导航和复杂信息定位任务中的表现。

在实验中,OpenSeeker在BrowseComp-ZH上超过了工业竞争对手。

xbench-DeepSearch

xbench-DeepSearch是一个基准测试,用于评估模型在复杂深度研究能力上的表现。

在实验中,OpenSeeker在xbench-DeepSearch上表现出色。

WideSearch

WideSearch是一个基准测试,用于评估模型在广泛信息搜索中的可靠性。

在实验中,OpenSeeker在WideSearch上表现出色。

监督微调 (SFT)

监督微调是一种训练技术,通过使用标记数据对模型进行微调,以提高其在特定任务上的性能。

在OpenSeeker中,SFT被用作训练技术。

实体混淆

实体混淆是一种通过模糊化实体节点来增加推理任务难度的方法。

在OpenSeeker中,实体混淆用于生成复杂的问答任务。

回顾性总结机制

回顾性总结机制是一种在生成轨迹时对工具响应进行总结的方法,以去除噪声。

在OpenSeeker中,这种机制用于去噪轨迹。

拓扑扩展

拓扑扩展是一种通过扩展网络图来生成复杂推理任务的方法。

在OpenSeeker中,拓扑扩展用于生成训练数据。

数据合成

数据合成是一种通过生成新的训练样本来增强数据集的方法。

在OpenSeeker中,数据合成用于生成高质量的训练数据。

轨迹去噪

轨迹去噪是一种通过去除不相关信息来提高数据质量的方法。

在OpenSeeker中,轨迹去噪用于提高数据的质量和复杂性。

开放问题 这项研究留下的未解疑问

  • 1 如何在资源有限的情况下进一步提高OpenSeeker的性能?尽管OpenSeeker在多个基准测试中表现出色,但由于资源限制,其仅在单次训练运行中验证了其有效性。未来的研究需要探索不同的参数和数据过滤策略,以进一步提高模型的性能。
  • 2 如何扩展OpenSeeker的训练数据集以覆盖更多的复杂场景?当前的训练数据量相对较小,尽管质量高,但在某些复杂任务中可能仍然不足以覆盖所有可能的场景。未来的研究需要扩展训练数据集,以提高模型在复杂任务中的表现。
  • 3 如何在不增加资源消耗的情况下提高OpenSeeker的训练效率?当前的训练过程需要大量的计算资源,未来的研究需要探索更高效的训练方法,以降低资源消耗。
  • 4 如何在不同语言和文化背景下提高OpenSeeker的适应性?当前的训练数据主要集中在英文和中文,未来的研究需要探索如何在不同语言和文化背景下提高模型的适应性。
  • 5 如何在保持数据质量的同时增加训练数据的多样性?当前的数据合成方法主要关注数据质量,未来的研究需要探索如何在保持数据质量的同时增加训练数据的多样性。

应用场景

近期应用

学术研究

OpenSeeker为学术界提供了一个强大的工具,使研究人员能够在无需大量资源的情况下,开发出与工业级别相媲美的搜索代理。

信息检索系统

OpenSeeker可以用于开发高性能的搜索引擎和信息检索系统,提高信息获取的效率和准确性。

教育应用

OpenSeeker可以用于教育领域,帮助学生快速找到相关的学习资料,提高学习效率。

远期愿景

智能助手

OpenSeeker可以用于开发智能助手,帮助用户在复杂的任务中快速找到所需的信息,提高工作效率。

跨语言搜索

未来,OpenSeeker可以用于开发跨语言搜索系统,帮助用户在不同语言和文化背景下快速找到相关信息。

原文摘要

Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet the development of high-performance search agents remains dominated by industrial giants due to a lack of transparent, high-quality training data. This persistent data scarcity has fundamentally hindered the progress of the broader research community in developing and innovating within this domain. To bridge this gap, we introduce OpenSeeker, the first fully open-source search agent (i.e., model and data) that achieves frontier-level performance through two core technical innovations: (1) Fact-grounded scalable controllable QA synthesis, which reverse-engineers the web graph via topological expansion and entity obfuscation to generate complex, multi-hop reasoning tasks with controllable coverage and complexity. (2) Denoised trajectory synthesis, which employs a retrospective summarization mechanism to denoise the trajectory, therefore promoting the teacher LLMs to generate high-quality actions. Experimental results demonstrate that OpenSeeker, trained (a single training run) on only 11.7k synthesized samples, achieves state-of-the-art performance across multiple benchmarks including BrowseComp, BrowseComp-ZH, xbench-DeepSearch, and WideSearch. Notably, trained with simple SFT, OpenSeeker significantly outperforms the second-best fully open-source agent DeepDive (e.g., 29.5% v.s. 15.3% on BrowseComp), and even surpasses industrial competitors such as Tongyi DeepResearch (trained via extensive continual pre-training, SFT, and RL) on BrowseComp-ZH (48.4% v.s. 46.7%). We fully open-source the complete training dataset and the model weights to democratize frontier search agent research and foster a more transparent, collaborative ecosystem.

cs.AI cs.CL

参考文献 (20)

WebSailor: Navigating Super-human Reasoning for Web Agent

Kuan Li, Zhongwang Zhang, Huifeng Yin 等

2025 126 引用 ⭐ 高影响力 查看解读 →

DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

Rui Lu, Zhenyu Hou, Zihan Wang 等

2025 27 引用 ⭐ 高影响力 查看解读 →

BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese

Peilin Zhou, Bruce Leon, Xiang Ying 等

2025 75 引用 ⭐ 高影响力 查看解读 →

BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents

Jason Wei, Zhiqing Sun, Spencer Papay 等

2025 303 引用 ⭐ 高影响力 查看解读 →

Tongyi DeepResearch Technical Report

Tongyi Li, Bo Zhang, Dingchu Zhang 等

2025 10 引用 ⭐ 高影响力 查看解读 →

WideSearch: Benchmarking Agentic Broad Info-Seeking

Ryan Wong, Jiawei Wang, Junjie Zhao 等

2025 30 引用 ⭐ 高影响力 查看解读 →

WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking

Zhengwei Tao, Haiyang Shen, Baixuan Li 等

2025 12 引用 ⭐ 高影响力 查看解读 →

WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

Kuan Li, Zhongwang Zhang, Huifeng Yin 等

2025 33 引用 ⭐ 高影响力 查看解读 →

REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

Zheng Chu, Xiao Wang, Jack Hong 等

2026 2 引用 ⭐ 高影响力 查看解读 →

WebDancer: Towards Autonomous Information Seeking Agency

Jialong Wu, Baixuan Li, Runnan Fang 等

2025 114 引用 查看解读 →

Scaling Agents via Continual Pre-training

Liangcai Su, Zhen Zhang, Guangyu Li 等

2025 25 引用 查看解读 →

GLM-5: from Vibe Coding to Agentic Engineering

GLM-4.5 Team Aohan Zeng, Xin Lv, Zhenyu Hou 等

2026 11 引用 查看解读 →

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

GLM-4.5 Team Aohan Zeng, Xin Lv, Qinkai Zheng 等

2025 239 引用 查看解读 →

AgentFold: Long-Horizon Web Agents with Proactive Context Management

Rui Ye, Zhongwang Zhang, Kuan Li 等

2025 20 引用 查看解读 →

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 3642 引用 查看解读 →

ReAct: Synergizing Reasoning and Acting in Language Models

Shunyu Yao, Jeffrey Zhao, Dian Yu 等

2022 6386 引用 查看解读 →

Information Seeking in Electronic Environments

G. Marchionini

1995 1664 引用

Kimi K2.5: Visual Agentic Intelligence

Kimi Team Yifan Bai, Yifan Bai, Yiping Bao 等

2026 32 引用 查看解读 →

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

MiroMind Team, Song Bai, Lidong Bing 等

2025 22 引用 查看解读 →

OpenAI GPT-5 System Card

Aaditya K. Singh, A. Fry, Adam Perelman 等

2025 133 引用 查看解读 →