MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings

TL;DR

提出MedCase-Structured,基于LLMs生成符合FHIR R4标准的临床数据集,用于诊断推理评估,82.5%的成功率。

cs.CL 🔴 高级 2026-05-29 94 次浏览
Valentina Bui Muti Eugénie Dulout Ziquan Fu
医疗人工智能 电子健康记录 FHIR标准 诊断推理 合成数据

核心发现

方法论

本文提出一套多阶段生成管道,结合大规模语言模型(LLMs)与术语校验机制,将非结构化临床文本转化为结构化、互操作的HL7 FHIR R4数据包。该流程包括信息提取、FHIR资源合成与语义验证三个核心步骤,利用SapBERT嵌入和FAISS索引实现术语校验,确保代码的准确性与一致性。通过多轮修正机制,有效减少幻觉代码,提升生成的FHIR包的结构和语义合理性。该方法在MedCaseReasoning基础上构建,生成了82.5%的有效病例,显著优于传统的合成工具。

关键结果

  • 在MedCase-Structured数据集上,LLMs(如GPT-5.4、Claude-Opus-4.6)在纯文本输入中诊断准确率达85%以上,但在结构化FHIR输入中显著下降,最低达70%,显示结构化数据对模型推理提出更高挑战。
  • 成功生成的FHIR包中,术语校验错误率控制在17.5%,主要集中在幻觉代码和覆盖不足问题,通过术语校验和修复机制显著降低了错误发生率。
  • 在不同的诊断任务中,结构化输入的模型表现普遍低于纯文本,验证了结构化数据在临床推理中的复杂性,强调部署环境中标准化评估的重要性。

研究意义

该研究填补了临床诊断推理评估中缺乏真实、可控、结构化合成数据的空白,为LLMs在电子健康记录(EHR)中的应用提供了标准化、可扩展的测试平台。通过生成符合FHIR标准的临床数据,能更真实反映实际医疗场景中的数据结构和互操作性问题,有助于推动AI辅助诊断系统的临床落地。此方法不仅提升了合成数据的质量,也为未来多模态、多资源类型的临床推理研究奠定基础,具有重要的学术和产业价值。

技术贡献

本文提出的多阶段生成与校验框架结合了LLMs的强大文本理解能力与术语校验机制,创新性地实现了从非结构化文本到结构化FHIR数据的高效转换。引入SapBERT嵌入和FAISS索引,实现术语的高精度匹配与修正,显著减少幻觉代码。该方法在保持临床语义完整性的同时,确保FHIR资源的结构和互操作性,为临床决策支持系统提供了可靠的训练和评估数据。与现有的Synthea等工具相比,具有更高的可控性和多样性,支持多资源类型和诊断复杂度的模拟。

新颖性

本研究首次提出基于LLMs的多阶段、术语校验驱动的临床数据合成管道,专为诊断推理任务设计,突破了传统合成工具在复杂场景下的局限。通过结合术语校验、结构验证与语义修正,实现了高比例(82.5%)的有效FHIR数据生成,显著优于现有的静态或规则驱动方法。这一创新框架为临床AI模型的部署和评估提供了标准化、可控的模拟环境,推动了结构化医疗数据的生成技术发展。

局限性

  • 当前管道支持的FHIR资源有限,未能全面覆盖所有临床场景,尤其是纵向时间序列和复杂诊断关系的建模仍需改进。
  • 术语校验主要依赖于预定义的标准词库,对于新兴或模糊概念的映射仍存在幻觉和覆盖不足的问题,影响数据质量。
  • 生成过程的计算成本较高,尤其在大规模、多资源类型的场景下,未来需优化算法效率以实现实时或大规模应用。

未来方向

未来将扩展支持的FHIR资源类型,增强纵向时间信息的建模能力,结合多模态数据(如影像、基因组)实现更丰富的临床场景模拟。同时,提升术语校验的智能化水平,结合上下文信息进行动态校正,减少幻觉代码。还将探索端到端训练策略,结合真实临床数据进行微调,以提升生成的临床合理性和多样性。最终目标是实现一个高效、全面、可控的临床合成平台,推动AI在实际医疗中的应用落地。

AI 总览摘要

在现代医疗体系中,电子健康记录(EHR)作为患者信息的核心载体,蕴含着丰富的临床数据,但其结构复杂、异构性强,极大限制了人工智能(AI)模型的有效利用。尤其是在诊断推理任务中,缺乏高质量、结构化、真实感强的训练和评估数据成为瓶颈。传统的合成工具如Synthea虽然能生成大量模拟患者,但在复杂临床场景和多资源类型的表达上存在局限,难以满足模型在真实环境中的需求。本文提出的MedCase-Structured,正是为解决这一问题而设计的创新方案。

该方法基于多阶段生成管道,结合大规模语言模型(LLMs)与术语校验机制,将非结构化的临床文本转化为符合HL7 FHIR R4标准的结构化数据包。具体流程包括:第一步信息提取,利用LLMs识别患者基本信息、症状、检验结果等关键要素;第二步FHIR资源合成,将提取信息映射到FHIR标准中的Patient、Encounter、Condition等资源类型;第三步语义验证和修正,利用SapBERT嵌入和FAISS索引对代码进行校验,减少幻觉代码,确保结构和语义一致性。通过多轮修正和规则后处理,最终实现了82.5%的病例成功生成。

在实际评估中,研究发现,尽管LLMs在纯文本输入中表现优异(诊断准确率达85%以上),但在结构化FHIR输入中,表现明显下降(最低70%),显示结构化数据对模型推理提出了更高的挑战。这一发现强调了在临床应用中,模型需要适应复杂、标准化的数据格式,才能实现真正的临床价值。

该研究的意义在于,提供了一个标准化、可控、临床真实感强的合成数据平台,为AI模型的训练、评估和部署提供了坚实基础。未来,随着支持资源的扩展和校验机制的优化,该方法有望在临床决策支持、智能诊断和个性化医疗等领域发挥更大作用。整体来看,MedCase-Structured不仅推动了医疗AI的技术创新,也为实现智能化、互操作的未来医疗体系提供了关键技术支撑。

深度解读

原文摘要

Large language models (LLMs) show promise for clinical reasoning and decision support, but evaluation in realistic, electronic health record-congruent settings remains limited. Existing benchmarks often rely on static datasets or unstructured inputs that do not reflect the structured, interoperable data formats used in clinical systems. We introduce a pipeline for generating clinically realistic HL7 FHIR R4 bundles from unstructured text, enabling controllable evaluation of clinical decision support systems. The pipeline combines staged LLM generation with terminology-grounded validation and repair to reduce hallucinated codes and enforce structural and semantic consistency. Applying this approach to MedCaseReasoning, we construct MedCase-Structured, a synthetic dataset aligned with clinician-authored diagnostic cases, achieving valid FHIR generation for 82.5% of cases. Evaluation on MedCase-Structured reveals consistently lower diagnostic accuracy for LLMs on structured FHIR inputs than with plain text, highlighting the importance of deployment-aligned benchmarking.

cs.CL cs.AI

参考文献 (13)

Synthea: An approach, method, and software mechanism for generating synthetic patients and the synthetic electronic health care record

Jason A. Walonoski, Mark Kramer, Joseph Nichols 等

2017 428 引用 ⭐ 高影响力

MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports

Kevin Wu, Eric Wu, R. Thapa 等

2025 22 引用 ⭐ 高影响力 查看解读 →

Billion-Scale Similarity Search with GPUs

Jeff Johnson, Matthijs Douze, H. Jégou

2017 5214 引用 查看解读 →

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

David Fraile Navarro, Farah Magrabi, Enrico W. Coiera

2026 4 引用 查看解读 →

MIMIC-IV, a freely accessible electronic health record dataset

A. Johnson, Lucas Bulgarelli, Lu Shen 等

2023 2830 引用

A systematic review of large language model (LLM) evaluations in clinical medicine

Sina Shool, Sara Adimi, Reza Saboori Amleshi 等

2025 240 引用

MIMIC-IV on FHIR: converting a decade of in-patient data into an exchangeable, interoperable format

A. Bennett, Hannes Ulrich, P. Damme 等

2023 34 引用

Self-Alignment Pretraining for Biomedical Entity Representations

Fangyu Liu, Ehsan Shareghi, Zaiqiao Meng 等

2020 443 引用 查看解读 →

Reasoning with large language models in medicine: a systematic review of techniques, challenges and clinical integration

Isra Mansoor, Muhammad Abdullah, M. Rizwan 等

2025 11 引用

FHIR-GPT Enhances Health Interoperability with Large Language Models.

Yikuan Li, Hanyin Wang, H. Yerebakan 等

2024 23 引用

A scoping review of using Large Language Models (LLMs) to investigate Electronic Health Records (EHRs)

Lingyao Li, Jiayan Zhou, Zhenxiang Gao 等

2024 78 引用 查看解读 →

Infherno: End-to-end Agent-based FHIR Resource Synthesis from Free-form Clinical Notes

Johann Frei, Nils Feldhus, Lisa Raithel 等

2025 1 引用 查看解读 →

EHRStruct: A Comprehensive Benchmark Framework for Evaluating Large Language Models on Structured Electronic Health Record Tasks

Xiao Yang, Xuejiao Zhao, Zhiqi Shen

2025 5 引用 查看解读 →