MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings

TL;DR

提出MedCase-Structured，基于LLMs生成符合FHIR R4标准的临床数据集，用于诊断推理评估，82.5%的成功率。

cs.CL 🔴 高级 2026-05-29 94 次浏览

Valentina Bui Muti Eugénie Dulout Ziquan Fu

医疗人工智能电子健康记录 FHIR标准诊断推理合成数据

核心发现

方法论

本文提出一套多阶段生成管道，结合大规模语言模型（LLMs）与术语校验机制，将非结构化临床文本转化为结构化、互操作的HL7 FHIR R4数据包。该流程包括信息提取、FHIR资源合成与语义验证三个核心步骤，利用SapBERT嵌入和FAISS索引实现术语校验，确保代码的准确性与一致性。通过多轮修正机制，有效减少幻觉代码，提升生成的FHIR包的结构和语义合理性。该方法在MedCaseReasoning基础上构建，生成了82.5%的有效病例，显著优于传统的合成工具。

关键结果

在MedCase-Structured数据集上，LLMs（如GPT-5.4、Claude-Opus-4.6）在纯文本输入中诊断准确率达85%以上，但在结构化FHIR输入中显著下降，最低达70%，显示结构化数据对模型推理提出更高挑战。
成功生成的FHIR包中，术语校验错误率控制在17.5%，主要集中在幻觉代码和覆盖不足问题，通过术语校验和修复机制显著降低了错误发生率。
在不同的诊断任务中，结构化输入的模型表现普遍低于纯文本，验证了结构化数据在临床推理中的复杂性，强调部署环境中标准化评估的重要性。

研究意义

该研究填补了临床诊断推理评估中缺乏真实、可控、结构化合成数据的空白，为LLMs在电子健康记录（EHR）中的应用提供了标准化、可扩展的测试平台。通过生成符合FHIR标准的临床数据，能更真实反映实际医疗场景中的数据结构和互操作性问题，有助于推动AI辅助诊断系统的临床落地。此方法不仅提升了合成数据的质量，也为未来多模态、多资源类型的临床推理研究奠定基础，具有重要的学术和产业价值。

技术贡献

本文提出的多阶段生成与校验框架结合了LLMs的强大文本理解能力与术语校验机制，创新性地实现了从非结构化文本到结构化FHIR数据的高效转换。引入SapBERT嵌入和FAISS索引，实现术语的高精度匹配与修正，显著减少幻觉代码。该方法在保持临床语义完整性的同时，确保FHIR资源的结构和互操作性，为临床决策支持系统提供了可靠的训练和评估数据。与现有的Synthea等工具相比，具有更高的可控性和多样性，支持多资源类型和诊断复杂度的模拟。

新颖性

本研究首次提出基于LLMs的多阶段、术语校验驱动的临床数据合成管道，专为诊断推理任务设计，突破了传统合成工具在复杂场景下的局限。通过结合术语校验、结构验证与语义修正，实现了高比例（82.5%）的有效FHIR数据生成，显著优于现有的静态或规则驱动方法。这一创新框架为临床AI模型的部署和评估提供了标准化、可控的模拟环境，推动了结构化医疗数据的生成技术发展。

局限性

当前管道支持的FHIR资源有限，未能全面覆盖所有临床场景，尤其是纵向时间序列和复杂诊断关系的建模仍需改进。
术语校验主要依赖于预定义的标准词库，对于新兴或模糊概念的映射仍存在幻觉和覆盖不足的问题，影响数据质量。
生成过程的计算成本较高，尤其在大规模、多资源类型的场景下，未来需优化算法效率以实现实时或大规模应用。

未来方向

未来将扩展支持的FHIR资源类型，增强纵向时间信息的建模能力，结合多模态数据（如影像、基因组）实现更丰富的临床场景模拟。同时，提升术语校验的智能化水平，结合上下文信息进行动态校正，减少幻觉代码。还将探索端到端训练策略，结合真实临床数据进行微调，以提升生成的临床合理性和多样性。最终目标是实现一个高效、全面、可控的临床合成平台，推动AI在实际医疗中的应用落地。

AI 总览摘要

在现代医疗体系中，电子健康记录（EHR）作为患者信息的核心载体，蕴含着丰富的临床数据，但其结构复杂、异构性强，极大限制了人工智能（AI）模型的有效利用。尤其是在诊断推理任务中，缺乏高质量、结构化、真实感强的训练和评估数据成为瓶颈。传统的合成工具如Synthea虽然能生成大量模拟患者，但在复杂临床场景和多资源类型的表达上存在局限，难以满足模型在真实环境中的需求。本文提出的MedCase-Structured，正是为解决这一问题而设计的创新方案。

该方法基于多阶段生成管道，结合大规模语言模型（LLMs）与术语校验机制，将非结构化的临床文本转化为符合HL7 FHIR R4标准的结构化数据包。具体流程包括：第一步信息提取，利用LLMs识别患者基本信息、症状、检验结果等关键要素；第二步FHIR资源合成，将提取信息映射到FHIR标准中的Patient、Encounter、Condition等资源类型；第三步语义验证和修正，利用SapBERT嵌入和FAISS索引对代码进行校验，减少幻觉代码，确保结构和语义一致性。通过多轮修正和规则后处理，最终实现了82.5%的病例成功生成。

在实际评估中，研究发现，尽管LLMs在纯文本输入中表现优异（诊断准确率达85%以上），但在结构化FHIR输入中，表现明显下降（最低70%），显示结构化数据对模型推理提出了更高的挑战。这一发现强调了在临床应用中，模型需要适应复杂、标准化的数据格式，才能实现真正的临床价值。

该研究的意义在于，提供了一个标准化、可控、临床真实感强的合成数据平台，为AI模型的训练、评估和部署提供了坚实基础。未来，随着支持资源的扩展和校验机制的优化，该方法有望在临床决策支持、智能诊断和个性化医疗等领域发挥更大作用。整体来看，MedCase-Structured不仅推动了医疗AI的技术创新，也为实现智能化、互操作的未来医疗体系提供了关键技术支撑。

深度解读

原文摘要

Large language models (LLMs) show promise for clinical reasoning and decision support, but evaluation in realistic, electronic health record-congruent settings remains limited. Existing benchmarks often rely on static datasets or unstructured inputs that do not reflect the structured, interoperable data formats used in clinical systems. We introduce a pipeline for generating clinically realistic HL7 FHIR R4 bundles from unstructured text, enabling controllable evaluation of clinical decision support systems. The pipeline combines staged LLM generation with terminology-grounded validation and repair to reduce hallucinated codes and enforce structural and semantic consistency. Applying this approach to MedCaseReasoning, we construct MedCase-Structured, a synthetic dataset aligned with clinician-authored diagnostic cases, achieving valid FHIR generation for 82.5% of cases. Evaluation on MedCase-Structured reveals consistently lower diagnostic accuracy for LLMs on structured FHIR inputs than with plain text, highlighting the importance of deployment-aligned benchmarking.

cs.CL cs.AI

参考文献 (13)

Synthea: An approach, method, and software mechanism for generating synthetic patients and the synthetic electronic health care record

Jason A. Walonoski, Mark Kramer, Joseph Nichols 等

2017 428 引用 ⭐ 高影响力

MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports

Kevin Wu, Eric Wu, R. Thapa 等

2025 22 引用 ⭐ 高影响力查看解读 →

Billion-Scale Similarity Search with GPUs

Jeff Johnson, Matthijs Douze, H. Jégou

2017 5214 引用查看解读 →

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

David Fraile Navarro, Farah Magrabi, Enrico W. Coiera

2026 4 引用查看解读 →

MIMIC-IV, a freely accessible electronic health record dataset

A. Johnson, Lucas Bulgarelli, Lu Shen 等

2023 2830 引用

A systematic review of large language model (LLM) evaluations in clinical medicine

Sina Shool, Sara Adimi, Reza Saboori Amleshi 等

2025 240 引用

MIMIC-IV on FHIR: converting a decade of in-patient data into an exchangeable, interoperable format

A. Bennett, Hannes Ulrich, P. Damme 等

2023 34 引用

Self-Alignment Pretraining for Biomedical Entity Representations

Fangyu Liu, Ehsan Shareghi, Zaiqiao Meng 等

2020 443 引用查看解读 →

Reasoning with large language models in medicine: a systematic review of techniques, challenges and clinical integration

Isra Mansoor, Muhammad Abdullah, M. Rizwan 等

2025 11 引用

FHIR-GPT Enhances Health Interoperability with Large Language Models.

Yikuan Li, Hanyin Wang, H. Yerebakan 等

2024 23 引用

A scoping review of using Large Language Models (LLMs) to investigate Electronic Health Records (EHRs)

Lingyao Li, Jiayan Zhou, Zhenxiang Gao 等

2024 78 引用查看解读 →

Infherno: End-to-end Agent-based FHIR Resource Synthesis from Free-form Clinical Notes

Johann Frei, Nils Feldhus, Lisa Raithel 等

2025 1 引用查看解读 →

EHRStruct: A Comprehensive Benchmark Framework for Evaluating Large Language Models on Structured Electronic Health Record Tasks

Xiao Yang, Xuejiao Zhao, Zhiqi Shen

2025 5 引用查看解读 →

MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

参考文献 (13)

相关论文

The Register Gap: A Meaning Intelligence Framework for Nigerian Public Discourse

Learning User Simulators with Turing Rewards

RubricsTree: Scalable and Evolving Open-Ended Evaluation of Personal Health Agents across Health Memory and Medical Skills

Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio

Characterizing Cultural Localization in AI-Generated Stories

Operads for compositional reasoning in LLMs