An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

TL;DR

我们发布了一个大型双语图书馆目录数据集，支持基于GND的多标签分类。

cs.CL 🔴 高级 2026-03-11 14 次浏览

Jennifer D'Souza Sameer Sadruddin Maximilian Kähler Andrea Salfinger Luca Zaccagna Francesca Incitti Lauro Snidaro Osma Suominen

AI 阅读器 Arxiv 原文下载 PDF

多标签分类图书馆科学 GND 双语数据集人工智能

核心发现

方法论

本研究提出了一种基于GND的多标签分类方法，利用大型双语（英语/德语）图书馆目录数据集。方法包括：1) 数据集构建，使用GND进行主题标注；2) 机器可操作的GND分类法；3) 预定义的训练/开发/测试数据集划分。该方法支持本体感知的多标签分类，实现文本到权威术语的映射，并结合代理辅助的目录编制。

关键结果

结果1：数据集中包含136,569条记录，覆盖多个领域，提供了丰富的主题标注，支持多语言一致性研究。
结果2：实验表明，使用GND分类法进行的多标签分类在准确性和可解释性上优于传统方法。
结果3：通过对三个系统的定性误差分析，揭示了在长尾主题、多语言变体和跨领域分布变化中的挑战。

研究意义

本研究为图书馆科学提供了一个强大的工具，支持多语言、多领域的主题索引。通过结合GND分类法，研究不仅提高了分类的准确性，还增强了结果的可解释性和透明度。这对于图书馆在大规模数据处理和多语言支持方面的需求具有重要意义。

技术贡献

技术贡献包括：1) 提供了一个大规模、双语的图书馆目录数据集；2) 开发了一个机器可操作的GND分类法；3) 提供了可重复的评估协议，支持基于本体的多标签分类。这些贡献为图书馆科学领域的自动化和智能化提供了新的可能性。

新颖性

本研究首次将GND分类法应用于大规模的多标签分类问题，特别是在图书馆科学领域。这一创新在于结合了权威的主题标注和机器学习方法，实现了高效的文本到术语映射。

局限性

局限1：数据集主要基于德语GND主题，可能对非德语用户的适用性有限。
局限2：长尾主题的稀疏性可能影响分类器的性能。
局限3：当前的系统可能在处理多语言变体时存在挑战。

未来方向

未来研究方向包括：1) 扩展数据集以支持更多语言；2) 开发更强大的模型以处理长尾主题；3) 探索更高效的多语言一致性和跨领域适应性方法。

AI 总览摘要

主题索引在图书馆的发现过程中至关重要，但在大规模和多语言环境中难以维持。我们发布了一个大型双语（英语/德语）图书馆目录数据集，标注了德语综合权威文件（GND），并提供了一个机器可操作的GND分类法。该资源支持本体感知的多标签分类，将文本映射到权威术语，并结合代理辅助的目录编制，提供可重复的、基于权威的评估。

图书馆长期以来依赖于专家的主题索引来使馆藏可被发现、互操作和持久。然而，快速增长的多语言图书馆目录记录的数量使得纯手动索引工作流程面临巨大压力。同时，大型语言模型（LLMs）和新兴的代理管道承诺提供支持，但它们必须基于权威词汇，具有可审计性，并在图书馆术语而非通用文本分类分数中进行评估。我们提供了一个机器学习就绪的资源，直接解决了这一差距：一个双语（英语/德语）、多领域的目录记录语料库，使用德语综合权威文件（Gemeinsame Normdatei, GND）中的主题进行索引，并与一个机器可操作版本的GND主题分类法和预定义的训练/开发/测试划分一起发布。目标不仅仅是规模，而是结构化的规模——每个预测都链接到图书馆已经信任的受控词汇。

该资源旨在帮助社区探讨在LLM时代对图书馆科学重要的实际问题：系统如何在保持来源和权威控制的同时，将自由文本与受控词汇对齐？什么算作“有用”的帮助——在描述点的top-k质量、层次一致性、可解释的理由，还是节省的目录员工作量？模型如何应对长尾主题、多语言变体以及跨领域和时间的分布变化？代理在以人为中心的工作流程中（分流、建议、验证）最适合的位置在哪里？

通过提供一个操作性分类法，数据集支持词汇基础、跨语言一致性、多义性和变体标签以及在现实标签稀疏性下的可靠性研究——这些是通用XMTC基准仅部分揭示的问题。在高层次上，我们的贡献将真实的目录记录与权威主题概念的稳定链接配对，并将它们打包用于可重复的评估。这使得本体感知的多标签分类、从自由文本到权威术语的检索增强映射以及结合检索、建议和策展人反馈的代理工作流程成为可能——使用反映目录编制现实的协议进行评估（例如，记录顶部的有用性和层次一致性）。

我们概述了资源、其构建和划分、初步分析和基线，并将本文定位为一个统计探索，以揭示机器学习解决方案框架的考虑因素，并通过对我们数据上开发的三个系统的定性误差分析结束——邀请LREC社区测试、比较和探索成功、可信赖的AI支持主题索引应该是什么样子。

深度解读

原文摘要

Subject indexing is vital for discovery but hard to sustain at scale and across languages. We release a large bilingual (English/German) corpus of catalog records annotated with the Integrated Authority File (GND), plus a machine-actionable GND taxonomy. The resource enables ontology-aware multi-label classification, mapping text to authority terms, and agent-assisted cataloging with reproducible, authority-grounded evaluation. We provide a brief statistical profile and qualitative error analyses of three systems. We invite the community to assess not only accuracy but usefulness and transparency, toward authority-anchored AI co-pilots that amplify catalogers' work.

cs.CL cs.AI cs.DL cs.IR

参考文献 (20)

Annif at the GermEval-2025 LLMs4Subjects Task: Traditional XMTC Augmented by Efficient LLMs

Osma Suominen, J. Inkinen, Mona Lehtinen

2025 1 引用 ⭐ 高影响力查看解读 →

SemEval-2025 Task 5: LLMs4Subjects - LLM-based Automated Subject Tagging for a National Technical Library's Open-Access Catalog

Jennifer D'Souza, Sameer Sadruddin, Holger Israel 等

2025 18 引用查看解读 →

The AGROVOC Linked Dataset

Caterina Caracciolo, A. Stellato, Ahsan Morshed 等

2013 195 引用

Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs

Yury Malkov, Dmitry A. Yashunin

2016 2098 引用查看解读 →

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Isabelle Mohr, Markus Krimmel, Saba Sturua 等

2024 28 引用查看解读 →

FastXML: a fast, accurate and stable tree-classifier for extreme multi-label learning

Yashoteja Prabhu, M. Varma

2014 421 引用

Cumulated gain-based evaluation of IR techniques

K. Järvelin, Jaana Kekäläinen

2002 5328 引用

Multilingual E5 Text Embeddings: A Technical Report

Liang Wang, Nan Yang, Xiaolong Huang 等

2024 367 引用查看解读 →

On Information and Sufficiency

Huaiyu Zhu

1997 9682 引用

Introduction to Information

J. Sengupta

1993 473 引用

OntoAligner: A Comprehensive Modular and Robust Python Toolkit for Ontology Alignment

Hamed Babaei Giglou, Jennifer D’Souza, Oliver Karras 等

2025 7 引用查看解读 →

Annif: DIY automated subject indexing using multiple algorithms

Osma Suominen

2019 54 引用

AttentionXML: Label Tree-based Attention-Aware Deep Model for High-Performance Extreme Multi-Label Text Classification

R. You, Zihan Zhang, Ziye Wang 等

2018 294 引用查看解读 →

Fast Multi-Resolution Transformer Fine-tuning for Extreme Multi-label Text Classification

Jiong Zhang, Wei-Cheng Chang, Hsiang-Fu Yu 等

2021 127 引用查看解读 →

silp_nlp at SemEval-2025 Task 5: Subject Recommendation With Sentence Transformer

P. Goyal, Sumit Singh, U. Tiwary

2 引用

Bonsai: diverse and shallow trees for extreme multi-label classification

Sujay Khandagale, Han Xiao, Rohit Babbar

2019 178 引用查看解读 →

An overview of the BIOASQ large-scale biomedical semantic indexing and question answering competition

G. Tsatsaronis, Georgios Balikas, Prodromos Malakasiotis 等

2015 764 引用

Taming Pretrained Transformers for Extreme Multi-label Text Classification

Wei-Cheng Chang, Hsiang-Fu Yu, Kai Zhong 等

2019 255 引用

Overview of BioASQ 2021-MESINESP track. Evaluation of advance hierarchical classification techniques for scientific literature, patents and clinical trials

Luis Gasco, A. Nentidis, Anastasia Krithara 等

2021 19 引用

Human-competitive automatic topic indexing

Olena Medelyan

2009 116 引用

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

参考文献 (20)

相关论文

Neuron-Aware Data Selection In Instruction Tuning For Large Language Models

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

Interpretable Semantic Gradients in SSD: A PCA Sweep Approach and a Case Study on AI Discourse

Long-form RewardBench: Evaluating Reward Models for Long-form Generation

HMS-BERT: Hybrid Multi-Task Self-Training for Multilingual and Multi-Label Cyberbullying Detection