MADE: A Living Benchmark for Multi-Label Text Classification with Uncertainty Quantification of Medical Device Adverse Events

TL;DR

MADE基准测试通过不确定性量化提升多标签文本分类精度，特别是在医疗设备不良事件中。

cs.CL 🔴 高级 2026-04-17 35 次浏览

Raunak Agarwal Markus Wenzel Simon Baur Jonas Zimmer George Harvey Jackie Ma

多标签分类不确定性量化医疗设备机器学习数据集

核心发现

方法论

本文提出了一个名为MADE的动态基准测试，用于多标签文本分类，特别是医疗设备不良事件报告。其核心方法包括使用超过20种编码器和解码器模型进行微调和少样本学习。通过熵和一致性为基础的不确定性量化方法，系统地评估模型性能。MADE数据集具有长尾分布的层次标签，并通过严格的时间分割实现可重复的评估。

关键结果

结果1：小型判别性微调解码器在头到尾精度上表现最佳，同时保持竞争性的不确定性量化能力。
结果2：生成性微调提供了最可靠的不确定性量化，尤其是在稀有标签上表现优异。
结果3：大型推理模型在稀有标签上提高了性能，但其不确定性量化能力较弱。

研究意义

该研究为医疗领域的多标签文本分类提供了一个无污染的基准测试，解决了现有基准测试饱和和数据污染的问题。通过引入动态更新的数据集，MADE为未来的研究提供了一个持续的评估平台，能够测试模型在新数据上的泛化能力。

技术贡献

技术上，MADE通过引入动态更新的基准测试，克服了传统静态数据集的局限性。它提供了一个长尾分布的层次标签体系，并通过严格的时间分割，确保了评估的可重复性。此外，系统地评估了多种不确定性量化方法，为未来的研究提供了实用的指导。

新颖性

MADE是首个专注于医疗设备不良事件的动态多标签文本分类基准测试。与现有的静态数据集不同，它通过持续更新，避免了数据污染，并提供了更具挑战性的评估环境。

局限性

局限1：虽然MADE提供了动态更新的数据集，但其标签的层次结构可能导致模型在处理复杂标签依赖时出现困难。
局限2：模型在稀有标签上的不确定性量化能力仍需进一步提升。

未来方向

未来的研究可以探索如何在MADE数据集上进一步提高模型的泛化能力，特别是在稀有标签和复杂标签依赖的情况下。此外，研究如何更好地结合信息和一致性为基础的不确定性量化方法，以提高模型的可靠性。

AI 总览摘要

在高风险领域如医疗保健中，机器学习模型不仅需要强大的预测性能，还需要可靠的不确定性量化（UQ）来支持人工监督。多标签文本分类（MLTC）是该领域的核心任务，但由于标签不平衡、依赖性和组合复杂性，仍然具有挑战性。

现有的MLTC基准测试逐渐饱和，并可能受到训练数据污染的影响，使得难以区分真正的推理能力和记忆能力。我们引入了MADE，一个从医疗设备不良事件报告中衍生的动态MLTC基准测试，并通过新发布的报告不断更新以防止污染。MADE具有长尾分布的层次标签，并通过严格的时间分割实现可重复的评估。

我们在微调和少样本设置下（指令调优/推理变体，本地/API可访问）建立了超过20种编码器和解码器模型的基线。我们系统地评估了基于熵/一致性和自我表达的不确定性量化方法。结果显示出明显的权衡：较小的判别性微调解码器在头到尾精度上表现最强，同时保持竞争性的不确定性量化；生成性微调提供了最可靠的不确定性量化；大型推理模型在稀有标签上提高了性能，但其不确定性量化能力意外地较弱；自我表达的信心不是不确定性的可靠代理。

我们的工作公开可用，提供了一个无污染的基准测试和全面的基线，为未来的研究提供了基础。通过MADE，研究人员可以在不断更新的数据上测试模型的泛化能力，避免了测试数据泄露到未来基础模型的预训练语料库中。

总之，MADE不仅为多标签文本分类提供了一个动态的评估平台，还通过系统地评估不确定性量化方法，为模型选择和UQ策略提供了实用的指导。未来的研究可以在此基础上，进一步探索提高模型在复杂标签依赖和稀有标签上的性能。

深度分析

研究背景

多标签文本分类（MLTC）在医疗领域中具有重要意义，如患者分类、临床编码和事件报告等。然而，MLTC面临着标签不平衡、依赖性和组合复杂性等挑战。传统的MLTC基准测试由于数据饱和和污染问题，难以评估大型语言模型（LLMs）的真正能力。现有的数据集通常是静态的，可能包含在LLM预训练语料库中，导致数据污染。此外，标签的不平衡和相互依赖性使得模型容易偏向于频繁类别，而忽视稀有但安全关键的条件。

核心问题

MLTC的核心问题在于如何在一个通常更大的标签集中选择多个标签，这导致了一个随着标签空间大小呈指数级增长的组合问题。真实世界的MLTC数据具有严重的类间和类内不平衡性：少数常见条件占据了大多数样本，而安全关键的条件则处于长尾中。模型必须学会在不偏向于频繁类别的情况下解开相关特征。此外，标签通常是共现的，并且具有层次依赖性，违反了标签独立性的假设。

核心创新

MADE的核心创新在于：

1. 动态更新的数据集：通过不断引入新的报告，避免了数据污染问题。

2. 长尾分布的层次标签：提供了一个更具挑战性的评估环境。

3. 严格的时间分割：确保了评估的可重复性。

4. 系统评估不确定性量化方法：为未来的研究提供了实用的指导。

方法详解

�� 数据集构建：从FDA的医疗设备不良事件报告中提取数据，创建一个具有层次标签的多标签文本分类数据集。
�� 模型选择：使用超过20种编码器和解码器模型进行微调和少样本学习。
�� 不确定性量化：评估基于熵和一致性的方法，以及自我表达的不确定性量化。
�� 实验设计：在微调和少样本设置下进行系统评估，比较不同模型和不确定性量化方法的性能。

实验设计

实验设计包括使用FDA的医疗设备不良事件报告数据集，进行微调和少样本学习。基线模型包括超过20种编码器和解码器模型，评估指标包括宏F1、Jaccard指数和不确定性量化指标（PRR、Spearman相关性、ECE+）。实验还包括消融研究，以评估不同不确定性量化方法的效果。

结果分析

实验结果表明，小型判别性微调解码器在头到尾精度上表现最佳，同时保持竞争性的不确定性量化能力。生成性微调提供了最可靠的不确定性量化，尤其是在稀有标签上表现优异。大型推理模型在稀有标签上提高了性能，但其不确定性量化能力较弱。自我表达的信心不是不确定性的可靠代理。

应用场景

MADE可以直接应用于医疗设备不良事件的自动化报告和分类系统中，帮助医疗机构更有效地监测和管理设备安全问题。其动态更新的数据集和不确定性量化方法也可用于其他高风险领域的多标签文本分类任务。

局限与展望

尽管MADE提供了一个动态更新的数据集，但其标签的层次结构可能导致模型在处理复杂标签依赖时出现困难。此外，模型在稀有标签上的不确定性量化能力仍需进一步提升。未来的研究可以探索如何更好地结合信息和一致性为基础的不确定性量化方法，以提高模型的可靠性。

通俗解读非专业人士也能看懂

想象一个图书馆，里面有很多书，每本书都有多个标签，比如“科幻”、“悬疑”、“畅销书”等。我们的任务是为每本新书贴上合适的标签。问题在于，有些标签很常见，比如“畅销书”，而有些标签很少见，比如“科幻悬疑”。我们需要一个聪明的系统来帮助我们自动贴标签，并且在不确定的时候提醒我们去检查。

MADE就像是这个图书馆的智能助手。它不仅能快速为每本书贴上合适的标签，还能告诉我们它有多确定这些标签是正确的。如果它不太确定，它会提醒我们去仔细检查。

这个系统通过不断学习新的书籍和标签，变得越来越聪明。它还能处理复杂的标签关系，比如一本书既是“科幻”又是“悬疑”，而且这些标签之间可能有某种联系。

总之，MADE是一个帮助我们更好地管理图书馆的工具，它让我们在面对大量书籍时，能够更高效地工作，同时确保标签的准确性。

简单解释像给14岁少年讲一样

嘿，小伙伴！想象一下你在玩一个超级复杂的游戏，这个游戏里有很多角色，每个角色都有不同的技能和属性。你的任务是为每个角色选择合适的技能组合，这就像给角色贴上标签一样。

问题是，有些技能很常见，比如“攻击力”，而有些技能很稀有，比如“隐身术”。你需要一个聪明的助手来帮你快速选择合适的技能组合，并且在不确定的时候提醒你去检查。

MADE就是这样的一个助手。它不仅能帮你快速选择技能组合，还能告诉你它有多确定这些选择是正确的。如果它不太确定，它会提醒你去仔细检查。

这个助手通过不断学习新的角色和技能，变得越来越聪明。它还能处理复杂的技能关系，比如一个角色既需要“攻击力”又需要“隐身术”，而且这些技能之间可能有某种联系。

总之，MADE是一个帮助你在游戏中更好地管理角色的工具，它让你在面对大量角色时，能够更高效地游戏，同时确保技能选择的准确性。

术语表

多标签文本分类 (Multi-label Text Classification)

一种机器学习任务，旨在为每个输入样本分配多个标签。

在本文中用于医疗设备不良事件的分类。

不确定性量化 (Uncertainty Quantification)

评估模型预测的不确定性程度，帮助识别可能的错误预测。

用于提高模型在高风险领域的可靠性。

长尾分布 (Long-tailed Distribution)

一种数据分布，其中少数类别占据大多数样本，而多数类别则很少出现。

MADE数据集中的标签分布特征。

熵 (Entropy)

一种度量随机变量不确定性的指标，值越大表示不确定性越高。

用于不确定性量化的指标之一。

一致性 (Consistency)

模型在多次预测中输出结果的一致性，反映其稳定性。

用于不确定性量化的指标之一。

判别性微调 (Discriminative Fine-tuning)

一种微调方法，专注于提高模型对特定任务的判别能力。

在MADE中用于提高模型的头到尾精度。

生成性微调 (Generative Fine-tuning)

一种微调方法，专注于提高模型生成输出的能力。

在MADE中用于提高不确定性量化的可靠性。

推理模型 (Reasoning Model)

一种能够进行复杂推理和决策的模型，通常用于处理稀有标签。

在MADE中用于提高稀有标签的性能。

自我表达 (Self-verbalization)

模型输出其预测的信心分数，作为不确定性量化的一种方法。

在MADE中用于评估模型的自信程度。

FDA (美国食品药品监督管理局)

负责保护和促进公众健康的美国政府机构。

提供MADE数据集的医疗设备不良事件报告。

开放问题这项研究留下的未解疑问

1 开放问题1：如何在不增加计算复杂度的情况下，提高模型在稀有标签上的不确定性量化能力？目前的方法在处理稀有标签时，往往需要更多的计算资源。
2 开放问题2：如何更好地结合信息和一致性为基础的不确定性量化方法，以提高模型的可靠性？现有的方法在某些情况下可能会产生冲突。
3 开放问题3：如何在不影响模型性能的情况下，简化标签的层次结构？复杂的层次结构可能导致模型在处理标签依赖时出现困难。
4 开放问题4：如何在动态更新的数据集上，保持模型的泛化能力？随着数据的不断更新，模型可能需要频繁调整。
5 开放问题5：如何在高风险领域中，平衡模型的自动化决策和人工干预？过多的人工干预可能降低系统的效率。

应用场景

近期应用

医疗设备监测

医院和医疗机构可以使用MADE来自动化监测和分类医疗设备的不良事件，提高设备安全管理的效率。

临床事件报告

临床研究人员可以利用MADE的数据集和不确定性量化方法，改进事件报告系统，确保报告的准确性和及时性。

药品安全监测

药品监管机构可以借助MADE的框架，开发类似的系统，用于监测药品的不良反应，提高药品安全性。

远期愿景

智能医疗系统

未来，MADE可以成为智能医疗系统的一部分，帮助医生和医疗机构更好地管理和预测医疗设备和药品的安全问题。

跨领域应用

MADE的框架和方法可以扩展到其他高风险领域，如金融和航空，帮助这些领域提高风险管理能力。

原文摘要

Machine learning in high-stakes domains such as healthcare requires not only strong predictive performance but also reliable uncertainty quantification (UQ) to support human oversight. Multi-label text classification (MLTC) is a central task in this domain, yet remains challenging due to label imbalances, dependencies, and combinatorial complexity. Existing MLTC benchmarks are increasingly saturated and may be affected by training data contamination, making it difficult to distinguish genuine reasoning capabilities from memorization. We introduce MADE, a living MLTC benchmark derived from {m}edical device {ad}verse {e}vent reports and continuously updated with newly published reports to prevent contamination. MADE features a long-tailed distribution of hierarchical labels and enables reproducible evaluation with strict temporal splits. We establish baselines across more than 20 encoder- and decoder-only models under fine-tuning and few-shot settings (instruction-tuned/reasoning variants, local/API-accessible). We systematically assess entropy-/consistency-based and self-verbalized UQ methods. Results show clear trade-offs: smaller discriminatively fine-tuned decoders achieve the strongest head-to-tail accuracy while maintaining competitive UQ; generative fine-tuning delivers the most reliable UQ; large reasoning models improve performance on rare labels yet exhibit surprisingly weak UQ; and self-verbalized confidence is not a reliable proxy for uncertainty. Our work is publicly available at https://hhi.fraunhofer.de/aml-demonstrator/made-benchmark.

cs.CL

参考文献 (20)

SGDR: Stochastic Gradient Descent with Warm Restarts

I. Loshchilov, F. Hutter

2016 10219 引用 ⭐ 高影响力查看解读 →

Decoupled Weight Decay Regularization

I. Loshchilov, F. Hutter

2017 32709 引用 ⭐ 高影响力

Measuring Calibration in Deep Learning

J. Nixon, Michael W. Dusenberry, Linchuan Zhang 等

2019 620 引用 ⭐ 高影响力查看解读 →

hdbscan: Hierarchical density based clustering

Leland McInnes, John Healy, S. Astels

2017 2518 引用 ⭐ 高影响力

Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph

Roman Vashurin, Ekaterina Fadeeva, Artem Vazhentsev 等

2024 83 引用查看解读 →

A system for classifying multi-label text into EuroVoc

G. Boella, Luigi Di Caro, D. Rispoli 等

2013 24 引用

KEVLAR: The Complete Resource for EuroVoc Classification of Legal Documents

Lorenzo Bocchi, Camilla Casula, Alessio Palmero Aprosio

2024 4 引用

Benchmarking large language models for biomedical natural language processing applications and recommendations

Qingyu Chen, Jingcheng Du, Yan Hu 等

2023 177 引用查看解读 →

Evaluation framework to guide implementation of AI systems into healthcare settings

S. Reddy, Wendy Rogers, Ville-Petteri Makinen 等

2021 160 引用

Exploring the Landscape of Natural Language Processing Research

Tim Schopf, Karim Arabi, F. Matthes

2023 20 引用查看解读 →

Calibration of Probabilities: The State of the Art

S. Lichtenstein, Baruch Fischhoff, L. Phillips

1977 725 引用

Navigating Uncertainty: A User-Perspective Survey of Trustworthiness of AI in Healthcare

Jaya Ojha, Oriana Presacan, Pedro G. Lind 等

2025 22 引用

HDLTex: Hierarchical Deep Learning for Text Classification

Kamran Kowsari, Donald E. Brown, Mojtaba Heidarysafa 等

2017 469 引用查看解读 →

Proving Test Set Contamination in Black Box Language Models

Yonatan Oren, Nicole Meister, Niladri S. Chatterji 等

2023 217 引用查看解读 →

Misclassification Risk and Uncertainty Quantification in Deep Classifiers

Murat Şensoy, Maryam Saleki, S. Julier 等

2021 30 引用

Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback

Katherine Tian, E. Mitchell, Allan Zhou 等

2023 643 引用查看解读 →

Hierarchy-aware Biased Bound Margin Loss Function for Hierarchical Text Classification

Gibaeg Kim, Sanghun Im, Heung-Seon Oh

2024 7 引用

Calibration-Based Empirical Probability

A. Dawid

1985 158 引用

Multi-label classification for biomedical literature: an overview of the BioCreative VII LitCovid Track for COVID-19 literature topic annotations

Qingyu Chen, Alexis Allot, Robert Leaman 等

2022 42 引用查看解读 →

Learning and Evaluation in the Presence of Class Hierarchies: Application to Text Categorization

Svetlana Kiritchenko, S. Matwin, R. Nock 等

2006 142 引用

MADE: A Living Benchmark for Multi-Label Text Classification with Uncertainty Quantification of Medical Device Adverse Events

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

多标签文本分类 (Multi-label Text Classification)

不确定性量化 (Uncertainty Quantification)

长尾分布 (Long-tailed Distribution)

熵 (Entropy)

一致性 (Consistency)

判别性微调 (Discriminative Fine-tuning)

生成性微调 (Generative Fine-tuning)

推理模型 (Reasoning Model)

自我表达 (Self-verbalization)

FDA (美国食品药品监督管理局)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

医疗设备监测

临床事件报告

药品安全监测

远期愿景

智能医疗系统

跨领域应用

原文摘要

参考文献 (20)

相关论文

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution

Improving Robustness of Tabular Retrieval via Representational Stability

Representational Harms in LLM-Generated Narratives Against Global Majority Nationalities

CRAFT: Clustered Regression for Adaptive Filtering of Training data

BERAG: Bayesian Ensemble Retrieval-Augmented Generation for Knowledge-based Visual Question Answering

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问