Diversed Model Discovery via Structured Table Discovery

TL;DR

StructuredSemanticSearch通过表格驱动模型搜索,597条查询实验覆盖率提升

cs.IR 🔴 高级 2026-05-22 56 次浏览
Zhengyuan Dong Renée J. Miller
模型搜索 结构化表格 信息检索 模型卡 多样性发现

核心发现

方法论

本文提出StructuredSemanticSearch,一种基于结构化表格发现的模型搜索框架。该方法结合语义检索与结构感知的表格发现管线,利用Blend系统中的表格操作符(包括可联合性、可连接性及关键词搜索)从模型卡中提取相关表格证据。通过将检索到的表格映射回模型卡,并在受控的top-k预算下进行排序,实现文本检索与表格检索的公平比较。此外,设计了面向模型表格领域的方向感知表格整合策略,解决表格转置及部分重叠问题,生成紧凑且可比的集成视图。评估采用基于nugget的可审计协议,抽取模型卡中的结构化证据项,匹配查询意图,量化检索候选集的证据覆盖度与多样性。

关键结果

  • 在597条模型推荐查询上,结构感知管线相比纯语义基线显著提升了nugget覆盖率,覆盖更多细粒度的模型变体、数据集及指标信息,验证了表格驱动检索在多样性发现中的优势。
  • 通过方向感知表格整合,系统有效处理了表格转置及重叠问题,提升了检索结果的可比性和用户体验,支持在动态模型湖中进行高效证据整合。
  • 基于HuggingFace 6万余模型卡及其结构化表格构建的模型湖,实验表明结合关键词、连接及联合操作的表格发现策略,能扩展检索候选集,避免语义检索中因文本同质化导致的结果单一性。

研究意义

本研究针对当前模型搜索系统过度依赖文本语义相似度导致结果同质化的问题,提出了以结构化表格为核心的检索范式,强调模型搜索的比较性需求。通过高密度、结构化的表格证据,用户不仅能获得任务相关的模型,还能发现性能、配置等多维度差异,支持更全面的模型选择和权衡决策。该方法为模型湖中海量异构模型的高效搜索与比较提供了新思路,促进了模型管理与应用的科学化和系统化。

技术贡献

技术上,本文创新性地将表格发现操作符(unionability、joinability、keyword search)引入模型卡检索,突破传统文本检索的局限。提出了方向感知的表格整合算法,解决了模型卡表格的转置与部分重叠问题,实现了结构化证据的紧凑集成视图。此外,设计了基于nugget的双阶段评估协议,实现了对检索结果细粒度证据覆盖与多样性的量化评估,支持动态模型湖的持续扩展与自动标注。

新颖性

首次将数据湖中表格发现技术系统性应用于模型卡检索,突破了以往仅依赖文本语义的检索范式。创新地结合语义检索与结构化表格发现,强调模型搜索的比较性和多样性需求。提出方向感知表格整合策略,解决模型卡表格异构性和转置问题,提升了证据整合的准确性和用户体验。

局限性

  • 本方法依赖于模型卡中结构化表格的质量和覆盖度,若表格信息缺失或不规范,检索效果可能受限。
  • 当前表格发现操作符基于Blend系统,处理极大规模模型湖时的计算效率和扩展性仍需进一步优化。
  • nugget抽取依赖提示工程和模型卡格式,面对格式多样性和语义模糊的查询,匹配准确率存在提升空间。

未来方向

未来工作将探索更高效的表格发现算法以适应更大规模模型湖,结合多模态信息(如代码、模型权重)丰富检索信号。计划引入更智能的查询理解与nugget匹配机制,提升对模糊和复杂查询的响应能力。同时,考虑用户交互反馈机制,动态调整检索策略,实现个性化和上下文感知的模型搜索体验。

AI 总览摘要

在机器学习模型管理领域,模型卡作为记录模型训练数据、性能指标和配置的关键文档,已成为模型湖中不可或缺的组成部分。传统模型搜索系统主要依赖文本语义相似度,导致检索结果趋于同质,限制了用户对多样化模型的探索和比较能力。针对这一挑战,本文提出了StructuredSemanticSearch,一种基于结构化表格发现的模型搜索框架,强调模型搜索的比较性需求,即在保证任务相关性的同时,发现性能、架构等可度量差异。

该方法结合了语义检索与结构感知的表格发现管线,利用Blend系统中的关键词搜索、表格连接(joinability)和联合(unionability)操作符,从模型卡及其引用的论文和代码库中抽取高密度、结构化的表格证据。检索到的表格通过方向感知的整合算法处理转置和重叠问题,生成紧凑且可比的集成视图,方便用户进行模型间的横向比较。

为评价检索效果,本文设计了基于nugget的双阶段评估协议,先从模型卡中抽取包含模型变体、数据集、指标名称及数值的结构化证据单元,再通过提示模型将查询映射为nugget约束,计算检索候选集的证据覆盖率和多样性。实验基于包含6万余模型卡的HuggingFace模型湖和597条改写自科学文献检索的模型推荐查询,结果显示结构感知管线在nugget覆盖率上显著优于纯语义基线,提升了模型搜索的多样性和比较价值。

本研究不仅为模型湖中海量异构模型的高效搜索提供了新范式,也推动了模型管理向更结构化、可比较的方向发展。通过强调结构化表格的作用,解决了文本描述冗长且风格多样带来的比较困难,促进了模型选择的科学决策。未来,结合更智能的查询理解和更大规模的表格发现,将进一步提升模型搜索的精准性和用户体验。

深度分析

研究背景

随着机器学习模型数量的爆炸式增长,模型湖作为集中管理和共享模型及其相关文档的基础设施日益重要。模型卡作为模型行为的官方记录,包含训练数据、性能指标和配置等信息,成为理解和比较模型的核心资源。现有模型搜索系统如HuggingFace、ModelScope等,主要依赖关键词检索、元数据过滤或基于文本的语义检索,虽能找到相关模型,但结果往往集中于同一模型家族,缺乏多样性,难以支持用户对模型性能和特性的深入比较。与此同时,模型卡中结构化的表格(如性能汇总、配置列表)承载了高密度、决策关键的证据,且格式规范,易于比较,然而传统搜索系统未充分利用这些结构化信息。数据湖领域的表格发现技术,如关键词搜索、表格连接与联合,为跨源表格的发现和整合提供了成熟方法,启发了本文将其引入模型卡检索的思路。此外,信息检索中的nugget评估方法通过分解答案为原子信息单元,解决了传统文档级评价无法全面覆盖用户信息需求的问题,为模型卡检索的细粒度评估提供了理论基础。

核心问题

核心问题在于如何在海量模型卡中检索出既符合查询任务需求,又在性能、配置等方面具有差异化的模型集合。传统基于文本语义相似度的检索方法倾向于返回同质化的模型,限制了用户对模型多样性的探索和权衡决策。模型搜索的本质是比较性检索,用户不仅需要相关模型,还需发现可度量的差异以支持选择。文本描述冗长且风格多样,难以直接比较,而结构化表格中蕴含的高质量、凝练的证据尚未被充分利用。此外,模型湖动态增长,固定的金标准标签难以维护,检索评估需具备可扩展性和可审计性。如何设计结合语义与结构化表格的检索框架,提升检索结果的多样性和覆盖度,同时实现细粒度、动态的评估,是本文重点解决的问题。

核心创新

本文的核心创新包括:


  • �� 结合语义检索与结构化表格发现,提出了StructuredSemanticSearch框架,利用Blend系统的关键词搜索、表格连接(joinability)和联合(unionability)操作符,扩展检索候选集,突破文本同质化限制。

  • �� 提出方向感知的表格整合算法,自动识别并处理表格转置及部分重叠,生成紧凑且可比的集成视图,提升用户比较体验。

  • �� 设计基于nugget的双阶段评估协议,抽取模型卡中的结构化证据单元,结合提示模型实现查询到nugget的映射,量化检索结果的证据覆盖率和多样性,支持动态模型湖的持续扩展和自动标注。

这些创新有效融合了信息检索、数据湖表格发现和模型管理领域的技术,填补了模型搜索中结构化证据利用不足的空白。

方法详解

  • �� 语义检索(NL2Card):使用Sentence-BERT编码器结合FAISS实现密集检索,支持稀疏检索(Pyserini)及混合检索,作为基线。

  • �� 表格发现(NL2Card2Tab2Card):基于语义检索选取锚模型卡,提取其关联表格作为锚表。

  • �� 表格关键词搜索:对锚表的表头和首列构造关键词查询,利用Blend的值基关键词搜索操作符检索相关表格,按匹配频率排序。

  • �� 表格连接搜索(Joinable Search):以锚表首列为查询列,检索可通过该列连接的表格,按连接列重叠度排序。

  • �� 表格联合搜索(Unionable Search):检索与锚表列可对齐的表格,支持外联合,按可对齐列数排序。

  • �� 表格映射回模型卡:每个检索表格关联一个或多个模型卡,选取与查询语义相似度最高的模型卡作为代表,避免重复。

  • �� 方向感知表格整合:识别表格是否转置,通过比较表头与首列关键词,自动转置后整合,解决部分重叠和格式异构问题,生成紧凑集成视图。

  • �� Nugget抽取:利用提示模型从模型卡中抽取固定六元组结构的nugget(模型、基模型、变体、数据集、指标名、指标值),标准化结构化证据。

  • �� 查询到nugget映射:通过提示模型将查询文本映射为nugget属性及约束,支持模糊与具体查询。

  • �� 证据覆盖评分:计算检索候选集覆盖的唯一查询相关nugget数量,衡量多样性和覆盖度。此评分不依赖排序,适合动态模型湖。

实验设计

实验基于HuggingFace模型湖,包含超过6万份模型卡及其结构化表格。筛选紧凑表格(行数<200,列数<100)以保证信息浓缩。查询集由597条改写自科学文献推荐的查询组成,保持原始检索意图。比较了纯语义检索(密集、稀疏及混合)与结构感知表格发现管线的nugget覆盖率。评估指标为覆盖的唯一查询相关nugget数量,反映检索结果的证据丰富度和多样性。实验还包括方向感知表格整合的用户体验评估,验证整合视图的可比性和紧凑性。通过消融实验分析各表格发现操作符的贡献,确保整体框架的有效性和稳定性。

结果分析

结构感知管线在597条查询上的nugget覆盖率显著优于纯语义基线,覆盖更多模型变体、数据集和性能指标,提升了检索结果的多样性和比较价值。方向感知整合有效处理了表格转置和重叠,生成的集成视图更加紧凑且易于比较。关键词、连接和联合三种表格发现操作符协同作用,扩展了候选模型集合,避免了语义检索中因文本同质化导致的结果单一性。消融实验显示,缺少任一操作符均导致覆盖率下降,验证了各组件的重要性。整体方法在动态扩展的模型湖中表现稳定,支持持续更新和自动化评估。

应用场景

本方法适用于大型模型湖中模型的高效搜索与比较,支持研究人员和工程师快速发现任务相关且性能多样的模型。可集成于模型管理平台,辅助模型选择和部署决策。通过结构化证据整合,提升模型卡的可读性和比较性,有助于模型文档标准化和质量提升。未来可扩展至多模态模型搜索,结合代码、权重等多源信息,推动模型生态系统的智能化管理和应用。

局限与展望

本方法依赖模型卡中结构化表格的完整性和规范性,若表格缺失或格式不统一,检索效果受限。Blend系统的表格发现操作符在极大规模数据下的计算效率和扩展性尚需优化。nugget抽取和查询映射依赖提示模型,面对格式多样和语义模糊的查询时准确率有待提升。此外,当前方法未充分考虑用户个性化需求和交互反馈,未来可引入动态调整机制。

通俗解读 非专业人士也能看懂

想象你在一个巨大的图书馆里寻找一本既适合你学习需求,又有不同特色的书。传统的搜索方式就像只看书的封面和简介,很多书看起来都差不多,难以分辨细节差异。StructuredSemanticSearch就像图书馆里有一套智能助手,不仅帮你看封面,还能帮你打开书中的目录和章节列表,快速找到书中关键内容的结构化摘要。它通过分析这些目录和章节表格,帮你发现那些内容相似但细节不同的书,方便你比较和选择。这个助手还能把不同书的目录整合成一个清晰的对比表,让你一目了然地看到每本书的特点。这样,你不仅找到符合需求的书,还能发现更多有趣的选择,做出更明智的决定。

简单解释 像给14岁少年讲一样

嘿,想象你在玩一个游戏,要找最厉害的角色。以前你只能看角色的介绍文字,很多角色看起来都差不多,选起来很难。现在有个超级助手,它不光看文字,还会帮你看角色的技能表和装备清单,帮你找到那些虽然任务一样,但技能和装备不一样的角色。它还能把这些角色的技能表放在一起,让你轻松比较谁厉害,谁适合你。这样你就能找到最适合你的角色,玩游戏更爽啦!

术语表

模型卡 (Model Card)

一种文档格式,用于描述机器学习模型的训练数据、性能指标、配置和使用限制,帮助用户理解模型行为。

本文中模型卡是模型搜索的核心数据源,包含文本和结构化表格信息。

结构化表格 (Structured Table)

以行列形式组织的高密度信息单元,通常包含性能指标、配置参数等,便于比较和检索。

本文利用模型卡中的结构化表格作为高质量证据进行模型搜索。

Blend操作符 (Blend Operators)

一组用于表格发现的操作符,包括关键词搜索、表格连接(joinability)和联合(unionability),支持跨表格的检索和整合。

本文采用Blend系统的操作符实现结构化表格的发现和扩展候选集。

nugget

信息检索中指原子级别的证据单元,本文定义为包含模型、基模型、变体、数据集、指标名和指标值的六元组。

用于细粒度评估检索结果的证据覆盖和多样性。

方向感知表格整合 (Orientation-aware Table Integration)

一种表格整合方法,自动识别表格是否转置并调整,解决部分重叠和格式异构问题,生成紧凑集成视图。

本文提出该方法提升模型卡表格的可比性和用户体验。

语义检索 (Semantic Search)

基于文本语义相似度的检索方法,通常利用深度学习编码器将文本映射到向量空间进行匹配。

作为基线方法,本文结合语义检索与表格发现提升搜索效果。

模型湖 (Model Lake)

集中存储和管理大量机器学习模型及其相关文档和元数据的系统。

本文基于HuggingFace模型湖进行实验。

关键词搜索 (Keyword Search)

基于关键词匹配的检索方法,本文在表格的表头和首列执行关键词搜索以发现相关表格。

Blend操作符之一,用于表格发现。

表格连接 (Joinability)

指两个表格可通过共享列进行连接的能力,支持跨表格信息整合。

用于扩展检索候选表格集合。

表格联合 (Unionability)

指两个表格列结构兼容,可以进行联合操作合并内容。

用于发现结构相似的表格,丰富候选集。

提示模型 (Prompt-based Model)

利用预训练语言模型,通过设计提示语实现特定任务,如nugget抽取和查询映射。

用于从模型卡抽取结构化证据和将查询映射为nugget约束。

FAISS

Facebook AI开发的高效相似度搜索库,支持大规模向量检索。

用于实现基线的密集语义检索。

Sentence-BERT

一种基于BERT的句子编码模型,能将文本映射为语义向量,支持高效语义检索。

作为密集检索编码器使用。

Pyserini

基于Lucene的开源信息检索工具,支持稀疏文本检索。

用于实现基线的稀疏检索。

nugget覆盖率 (Nugget Coverage)

检索结果中包含的唯一查询相关nugget数量,衡量证据的丰富度和多样性。

本文提出的核心评估指标。

开放问题 这项研究留下的未解疑问

  • 1 如何提升结构化表格在模型卡中的覆盖率和规范性,以保证表格驱动检索的效果?
  • 2 在极大规模模型湖中,如何优化表格发现操作符的计算效率和扩展性?
  • 3 如何提升提示模型在nugget抽取和查询映射中的准确性,尤其面对格式多样和语义模糊的输入?
  • 4 如何结合多模态信息(如代码、权重)丰富模型搜索信号,实现更精准的模型发现?
  • 5 如何引入用户交互反馈,实现个性化和上下文感知的动态检索策略?
  • 6 如何处理模型卡中存在的证据冲突和不一致,提升检索结果的可信度?
  • 7 如何设计更细粒度的评估指标,全面衡量模型搜索系统的比较性和多样性?

应用场景

近期应用

模型选择辅助

研究人员和工程师可利用该系统快速检索任务相关且性能多样的模型,支持更科学的模型选择和部署决策。

模型卡质量提升

通过结构化表格的发现与整合,促进模型卡文档的标准化和信息完整性,提升模型管理效率。

模型湖管理

为模型湖平台提供高效的模型搜索和比较工具,支持动态扩展和自动化评估。

远期愿景

多模态模型搜索平台

结合代码、权重和文本多源信息,实现更智能、精准的模型搜索和推荐,推动模型生态系统发展。

个性化智能检索系统

引入用户反馈和上下文感知机制,实现个性化、动态调整的模型搜索体验,提升用户满意度。

原文摘要

Model cards describe model behavior through a mixture of textual descriptions and structured artifacts, including performance, configuration, and dataset tables. Existing model search systems rely predominantly on semantic similarity over text, which can produce homogeneous result sets and limit exploration of alternatives. We argue that model search is inherently comparative: users want models that are task-aligned yet differentiated in measurable ways. We hypothesize that this balance requires retrieval over condensed, high-quality evidence rather than verbose descriptions, and much of that evidence is concentrated in structured tables. We present StructuredSemanticSearch, a table-driven model search framework built on the ModelTables benchmark. Given a query, StructuredSemanticSearch combines a semantic baseline for task alignment with a structure-aware pipeline that discovers query-related model-card tables using table discovery operators such as unionability, joinability, and keyword search. Retrieved tables are mapped back to model cards under a controlled top-k budget, enabling fair comparison between text-based and table-based retrieval. Beyond retrieval, StructuredSemanticSearch adapts table integration to the model-table domain through orientation-aware integration, producing compact integrated views of tables from partially overlapping and sometimes transposed evidence tables. For evaluation, we introduce a nugget-based, auditable protocol that extracts compact evidence items from model cards, matches queries to condition- or intent-specific nuggets, and measures evidence coverage and diversity over retrieved model-card candidate sets. This protocol also provides a scalable path toward approximate, evidence-based labeling in dynamic model lakes. Experiments on 597 model-recommendation queries show improved nugget coverage for the structure-aware pipeline than semantic baseline

cs.IR

参考文献 (20)

Automatic Generation of Model and Data Cards: A Step Towards Responsible AI

Jiarui Liu, Wenkai Li, Zhijing Jin 等

2024 17 引用 查看解读 →

The TREC-8 Question Answering Track Report

E. Voorhees

1999 1241 引用

Improving recommendation lists through topic diversification

Cai-Nicolas Ziegler, S. McNee, J. Konstan 等

2005 2101 引用

Evaluating Content Selection in Summarization: The Pyramid Method

A. Nenkova, R. Passonneau

2004 738 引用

Cumulated gain-based evaluation of IR techniques

K. Järvelin, Jaana Kekäläinen

2002 5451 引用

LSH Ensemble: Internet-Scale Domain Search

Erkang Zhu, Fatemeh Nargesian, K. Pu 等

2016 185 引用 查看解读 →

HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions

Shaoyin Ma, Chenggong Hu, Huiqiong Wang 等

2025 1 引用 查看解读 →

What's documented in AI? Systematic Analysis of 32K AI Model Cards

Weixin Liang, Nazneen Rajani, Xinyu Yang 等

2024 28 引用 查看解读 →

A Large Scale Test Corpus for Semantic Table Search

Aristotelis Leventidis, M. Christensen, Matteo Lissandrini 等

2024 10 引用

DIALITE: Discover, Align and Integrate Open Data Tables

Aamod Khatiwada, Roee Shraga, Renée J. Miller

2023 13 引用 查看解读 →

Intent-based diversification of web search results: metrics and algorithms

O. Chapelle, Shihao Ji, Ciya Liao 等

2011 131 引用

Deconstructing nuggets: the stability and reliability of complex question answering evaluation

Jimmy J. Lin, Pengyi Zhang

2007 19 引用

Initial Nugget Evaluation Results for the TREC 2024 RAG Track with the AutoNuggetizer Framework

Ronak Pradeep, Nandan Thakur, Shivani Upadhyay 等

2024 42 引用 查看解读 →

Fuzzy Integration of Data Lake Tables

Aamod Khatiwada, Roee Shraga, Renée J. Miller

2025 3 引用 查看解读 →

Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards

Furkan Şahinuç, Thy Thy Tran, Y. Grishina 等

2024 15 引用 查看解读 →

Beyond independent relevance: methods and evaluation metrics for subtopic retrieval

ChengXiang Zhai, William W. Cohen, J. Lafferty

2003 569 引用

Automatic Table Union Search with Tabular Representation Learning

Xuming Hu, Shen Wang, Xiao Qin 等

2023 31 引用

Pyserini: A Python Toolkit for Reproducible Information Retrieval Research with Sparse and Dense Representations

Jimmy J. Lin, Xueguang Ma, Sheng-Chieh Lin 等

2021 636 引用

ModelLens: Finding the Best for Your Task from Myriads of Models

Rui Cai, Weijie Mo, Xiaofei Wen 等

2026 1 引用 查看解读 →

BLEND: A Unified Data Discovery System

Mahdi Esmailoghli, Christoph Schnell, Renée J. Miller 等

2023 16 引用 查看解读 →