LLM-Guided Evolution for Medical Decision Pipelines

TL;DR

本文提出基于LLM引导的MAP-Elites演化方法，用于优化医疗决策流程，包括急诊分诊、互动咨询和医学影像分类，显著提升性能。

cs.CL 🔴 高级 2026-06-05 64 次浏览

Ivan Sviridov Artem Oskin Ivan Panin Iaroslav Bespalov Dmitry Dylov Ivan Oseledets Aleksandr Nesterov

人工智能医疗决策演化算法大语言模型优化方法

核心发现

方法论

本研究采用基于大语言模型（LLMs）引导的MAP-Elites演化框架，通过在推理时对候选程序、提示和配置进行变异和选择，以优化医疗决策管道。具体流程包括：• 使用预训练的gpt-oss-120b模型作为变异算子，进行程序重写和变异；• 构建任务特定的适应度函数，如急诊分诊的准确率和召回率、互动咨询的成本-准确性平衡、影像分类的结构化输出准确性；• 利用MAP-Elites算法在行为特征空间中维护多样化高性能候选，确保不同策略的探索与优化；• 通过多任务、多模型的实验验证，涵盖急诊分诊（Semigran和MIMIC-IV-ED）、互动咨询（MEDIQ和iCRAFTMD）以及医学影像分类（PneumoniaMNIST）等场景。整个流程强调在推理阶段实现策略优化，无需对基础模型进行微调，提升了适应性与效率。

关键结果

在急诊分诊任务中，演化程序将Semigran数据集上的准确率从77.3%提升至87.1%，召回率从0.60提升至0.97，显著优于手工设计的基线，且在MIMIC-ESI数据集上减少严重漏诊（从3.6%降至1.2%），提高安全性。
在互动咨询任务中，演化策略在Llama-3、Qwen-3.5和Gemma-4模型上实现了在准确率与交互成本的折衷优化，提升了整体性能，并成功迁移到未见的iCRAFTMD数据集，验证了策略的泛化能力。
在医学影像分类任务中，Prompt-only演化显著改善了MedGemma-4B和MedGemma-27B模型在PneumoniaMNIST上的准确率，最高达84.46%，同时保持严格的JSON输出格式，展示了在有限变异空间中提升模型性能的潜力。

研究意义

该研究突破了传统的微调和手工提示工程的限制，提出在推理时利用LLM引导的演化策略，有效提升医疗决策的准确性、安全性和效率。其创新点在于结合质量-多样性算法（MAP-Elites）与大模型变异，解决了医疗场景中多样化策略探索的难题，为临床决策支持系统提供了一种高效、可解释且易于迁移的优化方案。这不仅降低了模型适应新任务的成本，也为未来AI在医疗领域的自动化、个性化和安全性提供了新的技术路径。

局限性

当前方法依赖于高质量的预训练LLM，模型变异的稳定性和可控性仍需进一步验证，特别是在复杂临床场景中可能出现的偏差和不确定性。
演化过程在某些任务中可能受到搜索空间规模和适应度函数设计的限制，导致优化效果受限，尤其是在多目标权衡时难以找到全局最优解。
实验主要在模拟或有限数据集上进行，实际临床环境中的应用还需考虑系统的实时性、用户交互习惯和伦理合规等因素。

未来方向

未来将探索多模态信息融合、强化学习与演化的结合，以进一步提升策略的鲁棒性和适应性。同时，计划引入临床专家的反馈机制，结合人机交互优化策略，增强模型的可解释性和信任度。此外，将扩展到更多复杂场景，如慢性病管理和个性化治疗方案，推动AI在实际医疗中的广泛应用。

AI 总览摘要

随着深度学习和大语言模型（LLMs）的快速发展，医疗决策支持系统迎来了前所未有的变革。传统方法依赖于大量微调和手工设计的提示策略，既耗时又难以迁移到不同任务和环境中。本文提出了一种创新的推理时优化方案——基于LLM引导的MAP-Elites演化框架，旨在自动生成和优化医疗决策程序，突破了微调的高成本和低灵活性限制。

该方法核心在于利用预训练的gpt-oss-120b模型作为变异算子，通过程序重写和策略变异，探索多样化的决策方案。结合MAP-Elites算法，将候选程序在行为特征空间中存储和优化，确保在不同的行为维度上都能找到高性能的解。这一策略在三个关键医疗场景中得到了验证：急诊分诊、互动咨询和医学影像分类。

在急诊分诊任务中，演化程序显著提升了Semigran基准的准确率（从77.3%到87.1%），召回率（从0.60到0.97），并在MIMIC-ESI数据集上减少了严重漏诊比例（从3.6%降至1.2%），展示了其在安全性和效率上的优势。在互动咨询中，演化策略在多模型（如Llama-3、Qwen-3.5和Gemma-4）上实现了准确率与交互成本的优化，成功迁移到未见的iCRAFTMD数据集，验证了其泛化能力。在医学影像分类任务中，Prompt-only演化显著改善了MedGemma模型在PneumoniaMNIST上的表现，最高准确率达84.46%，同时保证输出格式的严格结构。

这些结果表明，基于LLM引导的演化方法不仅在性能上优于传统手工设计方案，也在模型的可解释性和安全性方面表现出巨大潜力。通过程序级别的机制调整，如校准的分诊边界、目标证据采集、选择性承诺和视觉决策规则，研究展示了自动化策略优化在实际医疗中的应用前景。未来，结合多模态信息和人机交互，将进一步推动AI在临床决策中的深度融合，为实现智能化、个性化和安全的医疗服务提供坚实基础。

深度分析

研究背景

近年来，深度学习特别是大语言模型（LLMs）在医疗领域的应用不断深化，从早期的文本诊断辅助到复杂的影像分析和临床决策支持。代表性工作如MedAsk、MedGPT、GatorTron等，已在症状问答、影像识别和临床推理中取得显著成果。然而，这些模型多依赖微调和手工提示策略，存在高成本、低迁移性和难以解释的问题。随着MAP-Elites等质量-多样性演化算法的兴起，研究者开始探索在推理阶段动态优化策略的可能性，试图在不改变基础模型的前提下实现多样化和高性能的决策方案。此前的研究多集中在通用任务或非安全敏感场景，缺乏在医疗决策中的系统性验证。本研究旨在填补这一空白，结合LLMs和MAP-Elites，探索多场景、多目标的医疗决策优化路径。

核心问题

医疗决策流程复杂多变，涉及急诊分诊、诊断咨询和影像分析等多个环节。传统方法依赖手工设计的规则或微调模型，既耗费人力又难以适应个性化需求。现有提示工程依赖经验和反复试错，缺乏系统性和可解释性，难以满足临床对安全性和可靠性的要求。如何在保证模型性能的同时，降低成本、提升适应性，成为亟待解决的核心问题。特别是在多任务、多模型、多目标的环境下，单一优化策略难以兼顾所有需求，亟需一种灵活、高效的方案。

核心创新

本研究的创新点主要体现在：1）提出基于LLM引导的MAP-Elites演化框架，实现推理时程序和策略的自动优化，避免微调成本；2）引入多目标适应度函数，兼顾准确率、安全性和交互成本，满足临床实际需求；3）在多场景（急诊、咨询、影像）中验证策略的有效性，展示其跨任务迁移能力；4）利用程序级别的机制调整（如校准边界、证据采集、视觉提示），增强模型的可解释性和安全性。这些创新突破了现有的静态提示和微调方法，为医疗AI提供了全新的动态优化路径。

方法详解

�� 采用预训练的gpt-oss-120b模型作为变异算子，对候选程序进行重写和变异，确保多样性；
�� 构建任务特定的适应度函数，包括准确率、召回率、安全指标（如漏诊率）、交互成本等，反映临床实际需求；
�� 利用MAP-Elites算法在行为特征空间中维护多样化的候选集，避免陷入局部最优，确保不同策略的探索；
�� 设计多任务的候选程序表示，从简单的提示到完整的决策程序，支持不同场景的优化需求；
�� 通过多轮演化，筛选出在验证集上表现优异的程序，并在未见数据上进行测试验证，确保策略的泛化能力；
�� 在每一轮中，利用LLM对候选程序进行变异和重写，结合任务反馈不断优化，形成闭环优化流程。

实验设计

实验在三个主要场景中展开：急诊分诊（Semigran、MIMIC-IV-ED）、互动咨询（MEDIQ、iCRAFTMD）和医学影像分类（PneumoniaMNIST）。每个场景都设有基线（手工设计程序或提示）和演化优化程序，评估指标包括准确率、召回率、安全指标、交互成本和输出格式的结构化程度。采用不同的模型（如GPT-4、Llama-3、Qwen-3.5、Gemma-4）进行多模型迁移测试，验证策略的泛化能力。每个任务都设置了训练集、验证集和测试集，演化在训练集上进行，最终在测试集上评估性能。还设计了消融实验，验证不同机制（如程序重写、行为特征设计、多目标优化）的贡献。

结果分析

在急诊分诊任务中，演化程序将Semigran准确率从77.3%提升至87.1%，召回率从0.60提升至0.97，显著优于手工设计方案。MIMIC-ESI上，最优程序降低严重漏诊比例（从3.6%降至1.2%），提升安全性。在互动咨询中，演化策略在Llama-3和Qwen-3.5模型上实现了准确率提升（如Llama-3从45.8%到48.2%，Qwen-3.5从71.1%到73.6%），同时大幅减少交互Token数（如Qwen-3.5由2100降至961），优化了成本-效果平衡。在医学影像分类中，Prompt-only演化使MedGemma-4B模型准确率从低于51%提升至68%以上，最高达72.5%，验证了在有限变异空间中的潜力。这些结果充分证明了演化策略在多场景、多模型中的有效性和迁移能力。

应用场景

该方法适用于临床急诊分诊、远程医疗咨询、医学影像辅助诊断等场景，能够在不改变基础模型的前提下，通过程序优化实现策略提升，降低部署成本。未来还可结合多模态信息和人机交互，构建更智能、更安全的临床决策支持系统。长远来看，该技术有望推动个性化医疗、自动化诊断流程的普及，减少医务人员负担，提高医疗服务效率和安全性。

局限与展望

目前方法依赖于高质量预训练模型，模型变异的稳定性和可控性尚需验证，特别是在临床复杂场景中可能出现偏差。演化过程在多目标优化时可能陷入局部最优，难以确保全局最优解。实验多在模拟环境或有限数据集上进行，实际临床应用还需考虑系统的实时性、用户体验和伦理合规问题。此外，演化过程的计算成本较高，未来需优化算法效率以适应大规模临床部署。

通俗解读非专业人士也能看懂

想象你在厨房里做饭，准备一道复杂的菜肴。传统上，你会按照菜谱一步步操作，可能需要不断试错，调整调料和火候，才能做出满意的菜。而现在，假如你有一个智能厨师（就像大语言模型），它可以在你做菜的过程中不断观察、学习你的偏好，甚至帮你改良菜谱。这个厨师不会改变你的厨房设备，但能在你做菜时提供建议、调整步骤，确保菜肴越来越好。这个研究就像让这个智能厨师在厨房里不断试验不同的做法，找到最合适你的那一套，既省时间又能做出更美味的菜。它用一种叫“演化”的方法，模拟自然选择，不断试错、优化，最终帮你做出最符合你需求的菜肴。这样一来，即使没有专业厨师的经验，也能轻松做出高水平的美味佳肴，医疗决策也是如此，复杂多变的场景需要不断试验和调整策略，才能找到最安全、最高效的方案。

简单解释像给14岁少年讲一样

想象你在学校里参加一个比赛，你需要设计一个能帮你赢得比赛的策略。以前，你可能会花很多时间自己琢磨，试着写一些规则，然后反复试验，看哪个效果最好。现在，有个超级聪明的朋友（就像大语言模型），他可以帮你想出很多不同的策略，还能告诉你哪种策略最靠谱。你们一起试验这些策略，看看哪个最适合比赛。这个研究就是用一种叫“演化”的方法，让这个聪明的朋友不断帮你改进策略，试出各种不同的办法，最后找到最棒的那一套。它就像在不断试错中学习，找到最适合你的方法。这样一来，即使你不是专家，也能用这个聪明的朋友帮你赢得比赛，特别是在复杂的事情，比如医疗决策中，也可以用这种方法找到最安全、最有效的方案。这个过程就像在游戏里不断升级，最终变得更厉害、更聪明！

原文摘要

Adapting large language models (LLMs) to clinical workflows often requires costly fine-tuning or manual prompt and pipeline engineering. We study LLM-guided MAP-Elites evolution as an inference-time alternative for discovering medical decision strategies and provide an implementation repository at https://github.com/univanxx/llm_guided_evo_medical. We formulate urgency triage, interactive consultation, and medical image classification as evolutionary searches over executable artifacts optimized by task-specific fitness functions. Across all three settings, evolution improves over manually designed baselines under practical constraints. In triage, evolved programs increase Semigran accuracy from $77.3\%$ to $87.1\%$ and emergency recall from $0.60$ to $0.97$, while improving safety-weighted held-out MIMIC-ESI performance. In interactive consultation, evolved policies improve the accuracy--cost frontier across Llama-3, Qwen-3.5, and Gemma-4 and transfer to held-out iCRAFTMD. In PneumoniaMNIST, prompt-only evolution improves frozen MedGemma VLMs while preserving strict JSON outputs. Qualitative analysis shows that the gains come from interpretable program-level mechanisms, calibrated triage boundaries, targeted evidence acquisition, selective commitment, and finding-oriented visual decision rules, rather than superficial prompt rewording alone.

cs.CL cs.NE

参考文献 (20)

Evaluating large language model workflows in clinical decision support for triage and referral and diagnosis

Farieda Gaber, Maqsood Shaik, Fabio Allega 等

2025 113 引用 ⭐ 高影响力

MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning

S. Li, Vidhisha Balachandran, Shangbin Feng 等

2024 149 引用 ⭐ 高影响力查看解读 →

A Survey of Sustainability in Large Language Models: Applications, Economics, and Challenges

Aditi Singh, N. Patel, Abul Ehtesham 等

2024 26 引用查看解读 →

What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams

Di Jin, Eileen Pan, Nassim Oufattole 等

2020 1731 引用查看解读 →

Evaluation of symptom checkers for self diagnosis and triage: audit study

Hannah L Semigran, J. Linder, C. Gidengil 等

2015 476 引用

PatientVLM Meets DocVLM: Pre-Consultation Dialogue Between Vision-Language Models for Efficient Diagnosis

K. Lokesh, A. S. Penamakuri, Uday Agarwal 等

2026 1 引用查看解读 →

AlphaEvolve: A coding agent for scientific and algorithmic discovery

Alexander Novikov, Ngân V˜u, Marvin Eisenberger 等

2025 531 引用查看解读 →

Automated Machine Learning: From Principles to Practices

Quanming Yao, Mengshuo Wang, Hugo Jair Escalante 等

2018 263 引用查看解读 →

EMPOWER: Evolutionary Medical Prompt Optimization With Reinforcement Learning.

Yinda Chen, Yangfan He, Jing Yang 等

2025 5 引用查看解读 →

Exploration and exploitation in evolutionary algorithms: A survey

M. Črepinšek, Shih-Hsi Liu, M. Mernik

2013 1374 引用

GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms

V. Khrulkov, Andrey V. Galichin, Denis Bashkirov 等

2025 10 引用查看解读 →

Triage Performance Across Large Language Models, ChatGPT, and Untrained Doctors in Emergency Medicine: Comparative Study

L. Masanneck, Linea Schmidt, Antonia Seifert 等

2024 89 引用

3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark

Ivan Sviridov, Amina Miftakhova, Artemiy Tereshchenko 等

2025 6 引用查看解读 →

MedMNIST v2 - A large-scale lightweight benchmark for 2D and 3D biomedical image classification

Jiancheng Yang, Rui Shi, D. Wei 等

2021 1312 引用查看解读 →

From Pre-labeling to Production: Engineering Lessons from a Machine Learning Pipeline in the Public Sector

Ronivaldo Ferreira, Guilherme Horta Alvares Da Silva, Carla Rocha 等

2025 1 引用查看解读 →

Evolution of triage systems

I. Robertson-Steel

2006 238 引用

Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning

Yuxuan Zhou, Yubin Wang, Bin Wang 等

2025 4 引用查看解读 →

ALFA: Aligning LLMs to Ask Good Questions A Case Study in Clinical Reasoning

S. Li, Jimin Mun, Faeze Brahman 等

2025 23 引用查看解读 →

A strategy for cost-effective large language model use at health system-scale

Eyal Klang, Donald U. Apakama, Ethan E Abbott 等

2024 33 引用

Medical Image Understanding with Pretrained Vision Language Models: A Comprehensive Study

Ziyuan Qin, Huahui Yi, Qicheng Lao 等

2022 101 引用查看解读 →

LLM-Guided Evolution for Medical Decision Pipelines

核心发现

方法论

关键结果

研究意义

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

The Register Gap: A Meaning Intelligence Framework for Nigerian Public Discourse

Learning User Simulators with Turing Rewards

RubricsTree: Scalable and Evolving Open-Ended Evaluation of Personal Health Agents across Health Memory and Medical Skills

Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio

Characterizing Cultural Localization in AI-Generated Stories

Operads for compositional reasoning in LLMs

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样