MedHopQA: A Disease-Centered Multi-Hop Reasoning Benchmark and Evaluation Framework for LLM-Based Biomedical Question Answering
MedHopQA通过多跳推理评估生物医学问答,使用1,000个专家策划的问题对。
核心发现
方法论
MedHopQA数据集通过一个多阶段的人机协作流程构建,结合了结构化的人类注释、AI辅助扩充和多阶段验证。每个问题需要从两个不同的维基百科文章中综合信息,答案以开放式自由文本形式提供。金标注释通过MONDO、NCBI Gene和NCBI Taxonomy的本体词集增强,以支持词汇和概念级别的评估。
关键结果
- 在零样本设置下评估四个前沿LLM(GPT-5.1、Gemini 2.5 Pro、Claude Sonnet 4.5和GPT-4o),结果显示不同答案类型的性能差异,总体准确率在66.3%到83.4%之间。化学和解剖学问题的表现最强,而在疾病和基因/蛋白质类别中,细粒度的语义区分要求导致了更大的性能变化。
- MedHopQA数据集的设计使其能够抵抗性能饱和和训练数据污染,提供了一个可重复使用的框架,用于构建未来的生物医学问答数据集,优先考虑组合推理、饱和抗性和污染抗性。
- 通过嵌入在一个可公开下载的10,000个问题集中的1,000个评分问题,并在CodaBench排行榜上隐藏答案,MedHopQA减少了排行榜游戏和污染风险。
研究意义
MedHopQA提供了一个新的基准和评估框架,专注于多跳推理,这在诊断支持、文献发现和假设生成等临床任务中至关重要。它填补了现有生物医学问答基准的空白,解决了多项长期存在的痛点,如性能饱和和训练数据污染问题。通过开放式答案格式和多跳结构,MedHopQA推动了对LLM推理能力的更深入评估。
技术贡献
MedHopQA的技术贡献在于其多跳推理的明确结构、开放式答案格式以及社区规模的评估。这些设计特性克服了现有基准的结构性限制,如格式刚性、饱和、污染脆弱性和浅层推理问题。通过使用维基百科作为知识来源,MedHopQA确保了问题的推理挑战性而非记忆性。
新颖性
MedHopQA是第一个结合多跳结构、开放式答案格式和社区规模评估的生物医学问答基准。与现有的多跳评估方法相比,它通过消除答案提示效应和要求模型生成而非选择正确的推理输出,提供了更广泛的推理表面。
局限性
- MedHopQA的一个限制是其依赖于维基百科作为知识来源,这可能导致对某些特定领域或最新研究的覆盖不足。
- 由于问题设计的复杂性,数据集的构建和验证过程需要大量的人力和时间投入。
- 尽管采取了措施减少污染风险,但仍然无法完全排除训练数据中潜在的相似实例。
未来方向
未来的工作方向包括扩展MedHopQA以涵盖更多的生物医学领域和知识来源,进一步提高问题的多样性和挑战性。此外,可以探索自动化生成和验证过程,以提高数据集构建的效率。社区可以利用MedHopQA框架开发新的评估基准,专注于其他复杂推理任务。
AI 总览摘要
在生物医学领域,评估大型语言模型(LLM)的能力需要能够区分推理和模式匹配的基准。现有的生物医学问答基准在这方面存在局限性。多选题格式可能使模型通过排除法而非推理成功,而广泛流传的考试风格数据集则越来越容易受到性能饱和和训练数据污染的影响。
多跳推理,即跨多个来源整合信息以得出答案的能力,对于诊断支持、文献发现和假设生成等临床任务至关重要,但在当前的生物医学问答基准中仍然代表性不足。MedHopQA是一个以疾病为中心的多跳推理基准,由1,000个专家策划的问题答案对组成,作为BioCreative IX的共享任务引入。每个问题需要综合来自两个不同维基百科文章的信息,答案以开放式自由文本形式提供,而不是多选题选择。
金标注释通过MONDO、NCBI Gene和NCBI Taxonomy的本体词集增强,以支持词汇和概念级别的评估。数据集通过一个多阶段的人机协作流程构建,结合了结构化的人类注释、筛选、迭代验证和LLM作为裁判的验证。为了减少排行榜游戏和污染风险,1,000个评分问题嵌入在一个可公开下载的10,000个问题集中,并在CodaBench排行榜上隐藏答案。
在零样本设置下评估四个前沿LLM(GPT-5.1、Gemini 2.5 Pro、Claude Sonnet 4.5和GPT-4o),结果显示不同答案类型的性能差异,总体准确率在66.3%到83.4%之间。化学和解剖学问题的表现最强,而在疾病和基因/蛋白质类别中,细粒度的语义区分要求导致了更大的性能变化。
MedHopQA提供了一个新的基准和评估框架,专注于多跳推理,这在诊断支持、文献发现和假设生成等临床任务中至关重要。它填补了现有生物医学问答基准的空白,解决了多项长期存在的痛点,如性能饱和和训练数据污染问题。通过开放式答案格式和多跳结构,MedHopQA推动了对LLM推理能力的更深入评估。
然而,MedHopQA也有其局限性。其依赖于维基百科作为知识来源,这可能导致对某些特定领域或最新研究的覆盖不足。此外,由于问题设计的复杂性,数据集的构建和验证过程需要大量的人力和时间投入。尽管采取了措施减少污染风险,但仍然无法完全排除训练数据中潜在的相似实例。未来的工作方向包括扩展MedHopQA以涵盖更多的生物医学领域和知识来源,进一步提高问题的多样性和挑战性。
深度分析
研究背景
生物医学文本挖掘传统上围绕特定任务的信息提取进行组织。命名实体识别、关系提取、事件检测和文档分类已被开发并作为离散的、流水线的子任务进行评估,每个子任务都有专门的模型、训练数据和评估基准。这种任务特定的范式通过预定义的模式支持了大规模生物注释工作,使得从文献中系统地提取结构化知识成为可能。
与此相对,自然语言问答为终端用户提供了一种更灵活的交互方式,其中信息需求直接以临时问题的形式提出,系统响应以流利的自然语言返回。大型语言模型(LLM)的兴起使这种设置越来越实用,使系统能够检索、组合和解释信息以生成连贯的答案。然而,自然语言问答揭示了系统行为的不同方面,特别是可靠地跨来源整合信息和执行多步骤推理的能力。因此,这种转变对数据集的构建和评估提出了新的要求,需要基准不仅捕捉事实正确性,而且——至关重要的是——能够可靠地唤起和评估生物医学知识上的推理。
核心问题
现有的生物医学问答基准在评估LLM的推理能力方面存在局限性。多选题格式使得模型可以通过排除法而非推理成功,而广泛流传的考试风格数据集则越来越容易受到性能饱和和训练数据污染的影响。多跳推理,即跨多个来源整合信息以得出答案的能力,对于诊断支持、文献发现和假设生成等临床任务至关重要,但在当前的生物医学问答基准中仍然代表性不足。
核心创新
MedHopQA通过以下创新解决了现有基准的局限性:
- �� 多跳结构:每个问题要求从两个不同的维基百科文章中综合信息,确保推理挑战性。
- �� 开放式答案格式:答案以自由文本形式提供,消除了答案提示效应,要求模型生成而非选择正确的推理输出。
- �� 社区规模评估:通过在CodaBench排行榜上嵌入和隐藏答案,减少了排行榜游戏和污染风险。
- �� 本体增强:金标注释通过MONDO、NCBI Gene和NCBI Taxonomy的本体词集增强,以支持词汇和概念级别的评估。
方法详解
MedHopQA数据集通过一个多阶段的人机协作流程构建,具体步骤如下:
- �� 源材料和种子页面选择:从维基百科的疾病页面列表中构建种子数据集,每个疾病页面与其出站超链接可达的页面配对。
- �� 人工注释:16名研究人员选择页面对并制定需要从两个文章中综合信息的问题。
- �� AI数据扩充:使用AI生成模块生成额外的QA对,并与人工生成的对一起进入筛选池。
- �� 筛选和验证:所有QA对进入共享筛选池,分配给评审员进行验证,确保问题质量。
实验设计
在零样本设置下,MedHopQA评估了四个前沿LLM(GPT-5.1、Gemini 2.5 Pro、Claude Sonnet 4.5和GPT-4o)。实验设计包括:
- �� 数据集:1,000个专家策划的问题答案对,嵌入在一个可公开下载的10,000个问题集中。
- �� 基线:使用现有的生物医学问答基准进行比较。
- �� 评估指标:准确率、语义区分能力和答案类型的性能差异。
- �� 超参数:模型的默认设置,未进行微调。
- �� 消融研究:分析不同答案类型的性能差异。
结果分析
实验结果显示:
- �� 总体准确率在66.3%到83.4%之间,化学和解剖学问题的表现最强。
- �� 在疾病和基因/蛋白质类别中,细粒度的语义区分要求导致了更大的性能变化。
- �� 零样本设置下,LLM在多跳推理任务中仍然具有挑战性,表明需要进一步的模型改进。
应用场景
MedHopQA的应用场景包括:
- �� 诊断支持:通过多跳推理,帮助医生整合来自不同来源的信息以做出诊断决策。
- �� 文献发现:支持研究人员在文献中发现新的关联和假设。
- �� 假设生成:为科学研究提供新的假设和研究方向。
局限与展望
MedHopQA的局限性包括:
- �� 依赖于维基百科作为知识来源,可能导致对某些特定领域或最新研究的覆盖不足。
- �� 数据集的构建和验证过程需要大量的人力和时间投入。
- �� 尽管采取了措施减少污染风险,但仍然无法完全排除训练数据中潜在的相似实例。未来的工作方向包括扩展MedHopQA以涵盖更多的生物医学领域和知识来源,进一步提高问题的多样性和挑战性。
通俗解读 非专业人士也能看懂
想象你在一个图书馆里,想要找到一本关于某种罕见疾病的书。你知道这本书可能会提到一种特定的基因,但你不确定是哪一种。你需要查找多本书籍,可能一本书里提到疾病的症状,另一本书里提到相关的基因。你需要将这些信息拼凑在一起,才能找到你需要的答案。
MedHopQA就像是这个图书馆的指南,帮助你找到正确的书籍,并告诉你如何将不同书籍中的信息整合在一起。它不仅仅是简单地查找答案,而是需要你进行推理和综合。
这种方法在医学领域非常重要,因为医生在诊断病人时,常常需要整合来自不同研究和文献的信息。MedHopQA通过模拟这种复杂的推理过程,帮助评估和提高大型语言模型在生物医学领域的能力。
通过这种方式,MedHopQA不仅仅是一个简单的问答工具,而是一个帮助我们更好地理解和应用复杂信息的强大工具。
简单解释 像给14岁少年讲一样
嘿,小伙伴们!你有没有想过医生是怎么知道我们生病时该怎么办的?他们可不是只靠一本书就能搞定的哦!
想象一下,你在玩一个超级复杂的拼图游戏。每块拼图都来自不同的盒子,你需要把它们拼在一起才能看到完整的画面。医生们在诊断时就像在玩这个拼图游戏,他们需要从不同的医学书籍和研究中找到线索,然后把它们拼在一起,找出病因和治疗方法。
MedHopQA就是帮助医生们玩这个拼图游戏的工具。它会给出一些问题,然后要求你从不同的资料中找答案,就像在不同的盒子里找拼图块一样。这样一来,医生们就能更快更准确地找到答案啦!
所以,下次你去看医生时,记得他们可是用了很多聪明的工具和方法来帮助你哦!
术语表
多跳推理 (Multi-hop Reasoning)
多跳推理是指通过整合来自多个信息来源的信息来得出结论的能力。这在复杂的问答任务中尤为重要。
在MedHopQA中,每个问题都需要多跳推理来综合来自两个不同维基百科文章的信息。
开放式答案 (Open-ended Answer)
开放式答案指的是不限制在预定义选项中的答案格式,通常以自由文本形式出现。
MedHopQA采用开放式答案格式,要求模型生成而非选择答案。
维基百科 (Wikipedia)
维基百科是一个自由的网络百科全书,由全球志愿者共同撰写,涵盖了广泛的主题。
MedHopQA使用维基百科作为知识来源,确保问题的推理挑战性。
本体词集 (Ontology-grounded Synonym Sets)
本体词集是指基于领域本体的同义词集合,用于支持词汇和概念级别的评估。
MedHopQA通过MONDO、NCBI Gene和NCBI Taxonomy的本体词集增强金标注释。
CodaBench排行榜 (CodaBench Leaderboard)
CodaBench是一个用于共享任务和基准评估的在线平台,提供排行榜功能以促进社区参与。
MedHopQA的数据集嵌入在CodaBench排行榜上,以减少排行榜游戏和污染风险。
零样本设置 (Zero-shot Setting)
零样本设置是指在没有特定任务训练的情况下,直接评估模型在新任务上的性能。
MedHopQA在零样本设置下评估四个前沿LLM的性能。
性能饱和 (Performance Saturation)
性能饱和是指模型在基准测试中达到高分后,基准不再能有效区分模型能力的现象。
MedHopQA通过多跳结构和开放式答案设计,抵抗性能饱和。
数据集污染 (Dataset Contamination)
数据集污染是指训练数据中包含与测试集相似的实例,导致模型通过记忆而非推理获得高分。
MedHopQA通过隐藏答案和嵌入问题,减少数据集污染风险。
BioCreative IX
BioCreative是一个生物医学文本挖掘社区评估活动,旨在推动领域内的研究和技术进步。
MedHopQA作为BioCreative IX的共享任务引入,促进社区参与和评估。
LLM作为裁判 (LLM-as-a-judge)
LLM作为裁判是指使用大型语言模型来验证和评估问题答案的过程。
MedHopQA在数据集构建过程中使用LLM作为裁判进行验证。
开放问题 这项研究留下的未解疑问
- 1 如何在不依赖于特定知识来源的情况下,构建具有更广泛适用性的多跳推理数据集?现有方法多依赖于维基百科等特定来源,可能导致对某些领域的覆盖不足。需要开发新的数据集构建方法,以涵盖更多的知识领域和来源。
- 2 在多跳推理任务中,如何有效地评估模型的推理能力而非记忆能力?现有基准可能无法完全区分模型的推理和记忆能力。需要开发新的评估指标和方法,以更准确地评估模型的推理能力。
- 3 如何自动化数据集的构建和验证过程,以提高效率和减少人工干预?现有数据集的构建和验证过程需要大量的人力和时间投入。需要开发新的自动化工具和方法,以提高数据集构建的效率。
- 4 在多跳推理任务中,如何有效地处理和整合来自不同来源的信息?现有方法可能无法有效地整合和处理来自不同来源的信息。需要开发新的信息整合和处理方法,以提高多跳推理任务的性能。
- 5 如何在多跳推理任务中,减少训练数据污染的风险?现有数据集可能受到训练数据污染的影响,导致模型通过记忆而非推理获得高分。需要开发新的数据集设计和评估方法,以减少污染风险。
应用场景
近期应用
诊断支持
MedHopQA可以帮助医生整合来自不同来源的信息,以做出更准确的诊断决策。通过多跳推理,医生可以更快地找到相关信息,改善患者的治疗效果。
文献发现
研究人员可以使用MedHopQA在文献中发现新的关联和假设,推动科学研究的进展。通过整合不同文献中的信息,研究人员可以更全面地理解研究主题。
假设生成
科学家可以利用MedHopQA生成新的研究假设,探索新的研究方向。通过多跳推理,科学家可以发现新的研究路径,推动科学进步。
远期愿景
个性化医疗
通过整合患者的个人数据和最新的医学研究,MedHopQA可以帮助实现个性化医疗,提高治疗效果。尽管目前仍面临数据隐私和技术挑战,但未来有望实现。
自动化科学发现
MedHopQA可以推动自动化科学发现的进展,通过整合和分析大量的科学数据,发现新的科学规律和理论。尽管目前仍面临技术和计算挑战,但未来有望实现。
原文摘要
Evaluating large language models (LLMs) in the biomedical domain requires benchmarks that can distinguish reasoning from pattern matching and remain discriminative as model capabilities improve. Existing biomedical question answering (QA) benchmarks are limited in this respect. Multiple-choice formats can allow models to succeed through answer elimination rather than inference, while widely circulated exam-style datasets are increasingly vulnerable to performance saturation and training data contamination. Multi-hop reasoning, defined as the ability to integrate information across multiple sources to derive an answer, is central to clinically meaningful tasks such as diagnostic support, literature-based discovery, and hypothesis generation, yet remains underrepresented in current biomedical QA benchmarks. MedHopQA is a disease-centered multi-hop reasoning benchmark consisting of 1,000 expert-curated question-answer pairs introduced as a shared task at BioCreative IX. Each question requires synthesis of information across two distinct Wikipedia articles, and answers are provided in an open-ended free-text format. Gold annotations are augmented with ontology-grounded synonym sets from MONDO, NCBI Gene, and NCBI Taxonomy to support both lexical and concept-level evaluation. MedHopQA was constructed through a structured process combining human annotation, triage, iterative verification, and LLM-as-a-judge validation. To reduce leaderboard gaming and contamination risk, the 1,000 scored questions are embedded within a publicly downloadable set of 10,000 questions, with answers withheld, on a CodaBench leaderboard. MedHopQA provides both a benchmark and a reusable framework for constructing future biomedical QA datasets that prioritize compositional reasoning, saturation resistance, and contamination resistance as core design constraints.
参考文献 (20)
Large language models in medicine
A. Thirunavukarasu, Darren S. J. Ting, Kabilan Elangovan 等
What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams
Di Jin, Eileen Pan, Nassim Oufattole 等
Lessons from Natural Language Inference in the Clinical Domain
Alexey Romanov, Chaitanya P. Shivade
A large-scale benchmark for evaluating large language models on medical question answering in Romanian
Ana-Cristina Rogoz, R. Ionescu, Alexandra-Valentina Anghel 等
♫ MuSiQue: Multihop Questions via Single-hop Question Composition
H. Trivedi, Niranjan Balasubramanian, Tushar Khot 等
Time Travel in LLMs: Tracing Data Contamination in Large Language Models
Shahriar Golchin, M. Surdeanu
Holistic Evaluation of Language Models
Percy Liang, Rishi Bommasani, Tony Lee 等
Overview of the ClinIQLink 2025 Shared Task on Medical Question-Answering
B. Colelough, Davis Bartels, Dina Demner-Fushman
Overview of the Medical Question Answering Task at TREC 2017 LiveQA
Asma Ben Abacha, Eugene Agichtein, Yuval Pinter 等
MedCPT: Contrastive Pre-trained Transformers with Large-scale PubMed Search Logs for Zero-shot Biomedical Information Retrieval
Qiao Jin, Won Kim, Qingyu Chen 等
RadQA: A Question Answering Dataset to Improve Comprehension of Radiology Reports
Sarvesh Soni, Meghana Gudala, A. Pajouhi 等
HealthBench: Advancing AI evaluation in healthcare, but not yet clinically ready
Jialin Liu, Siru Liu
MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering
Juraj Vladika, P. Schneider, Florian Matthes
RealMedQA: A pilot biomedical question answering dataset containing realistic clinical questions
Gregory Kell, A. Roberts, Serge Umansky 等
LongHealth: A Question Answering Benchmark with Long Clinical Documents
L. Adams, Felix Busch, T. Han 等
Constructing Datasets for Multi-hop Reading Comprehension Across Documents
Johannes Welbl, Pontus Stenetorp, Sebastian Riedel
MedMCQA : A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering
Ankit Pal, Logesh Kumar Umapathi, Malaikannan Sankarasubbu
BioHopR: A Benchmark for Multi-Hop, Multi-Answer Reasoning in Biomedical Domain
Yunsoo Kim, Yusuf Abdulle, Honghan Wu
emrQA: A Large Corpus for Question Answering on Electronic Medical Records
Anusri Pampari, Preethi Raghavan, Jennifer J. Liang 等