MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage

TL;DR

MedObvious通过临床分诊揭示VLMs中的医疗Moravec悖论，提出1880项任务基准测试。

cs.CV 🔴 高级 2026-03-25 45 次浏览

Ufaq Khan Umair Nawaz L D M S S Teja Numaan Saeed Muhammad Bilal Yutong Xie Mohammad Yaqub Muhammad Haris Khan

医疗影像视觉语言模型输入验证临床分诊安全性

核心发现

方法论

MedObvious是一个专注于医学影像输入验证的基准测试，包含1880项任务，分为五个渐进层次，从基本的方向/模态不匹配到临床动机的解剖/视角验证和分诊风格的提示。该基准测试评估17种不同的视觉语言模型（VLMs），通过多种评估格式测试其在不同界面下的鲁棒性。

关键结果

在评估的17种VLMs中，许多模型在正常输入（负控）上出现幻觉异常，性能在扩展到更大的图像集时下降，准确性在多项选择和开放式设置之间显著变化。
最好的平均准确率达到63.2%，但负控准确率跨度很大，表明在正常输入上误报仍然普遍。
在多项选择和开放式变体之间存在较大差距，表明格式敏感性强。

研究意义

该研究揭示了在医学VLMs中，诊断前验证仍未解决，应该作为部署前的一个独立且安全关键的能力来对待。通过引入MedObvious基准测试，研究人员能够更好地评估和改进VLMs在医学影像中的输入验证能力，从而提高这些模型在临床应用中的安全性和可靠性。

技术贡献

MedObvious通过将输入验证作为一项独立的能力进行测试，与现有的医学VLM基准测试不同，这些基准测试主要评估最终答案的正确性。MedObvious的引入填补了这一空白，强调了在多图像或代理工作流中，视觉显而易见的合理性检查的重要性。

新颖性

MedObvious是第一个专注于医学影像输入验证的基准测试，强调在多图像集上的一致性能力。这一创新在于它揭示了模型在生成流畅的诊断叙述时，可能忽略基本的合理性检查。

局限性

该研究的局限之一是使用简化的网格进行测试，而不是完整的多系列卷和交互式查看器。
模型在正常输入上的误报率较高，表明在正常情况下的校准是一个独立于诊断流畅性的难题。

未来方向

未来的工作应扩展到完整的多系列卷和交互式查看器评估，以更好地模拟真实的临床环境。此外，研究应继续探索如何提高模型在正常输入上的校准能力，以减少误报。

AI 总览摘要

视觉语言模型（VLMs）在医学影像中的应用越来越广泛，尤其是在生成医学报告和回答视觉问题方面。然而，流畅的诊断文本并不保证安全的视觉理解。在临床实践中，解释始于诊断前的合理性检查：验证输入是否有效（正确的模态和解剖学，合理的视角和方向，以及没有明显的完整性违规）。现有的基准测试大多假设这一步骤已经解决，因此忽略了一个关键的失败模式：即使输入不一致或无效，模型也能生成合理的叙述。我们引入了MedObvious，一个包含1880项任务的基准测试，将输入验证作为一项独立的能力进行测试。MedObvious涵盖五个渐进层次，从基本的方向/模态不匹配到临床动机的解剖/视角验证和分诊风格的提示，并包括五种评估格式，以测试模型在不同界面下的鲁棒性。评估17种不同的VLMs，我们发现合理性检查仍然不可靠：多个模型在正常（负控）输入上出现幻觉异常，性能在扩展到更大的图像集时下降，准确性在多项选择和开放式设置之间显著变化。这些结果表明，诊断前验证仍未解决，应该作为部署前的一个独立且安全关键的能力来对待。

MedObvious的引入填补了现有医学VLM基准测试的空白，这些基准测试主要评估最终答案的正确性，而忽略了输入验证的重要性。通过强调在多图像集上的一致性能力，MedObvious揭示了模型在生成流畅的诊断叙述时，可能忽略基本的合理性检查。这一研究的意义在于，它为研究人员提供了一个工具，以更好地评估和改进VLMs在医学影像中的输入验证能力，从而提高这些模型在临床应用中的安全性和可靠性。

然而，该研究也存在一些局限性。首先，使用简化的网格进行测试，而不是完整的多系列卷和交互式查看器，这可能限制了结果的适用性。此外，模型在正常输入上的误报率较高，表明在正常情况下的校准是一个独立于诊断流畅性的难题。因此，未来的工作应扩展到完整的多系列卷和交互式查看器评估，以更好地模拟真实的临床环境。

总之，MedObvious为医学VLMs的诊断前验证提供了一个新的基准测试，强调了合理性检查的重要性。通过揭示模型在输入验证方面的不足，该研究为提高VLMs在医学影像中的安全性和可靠性提供了新的视角和方向。未来的研究应继续探索如何提高模型在正常输入上的校准能力，以减少误报，并扩展到更复杂的临床环境中进行评估。

深度分析

研究背景

随着人工智能技术的发展，视觉语言模型（VLMs）在医学影像中的应用越来越广泛。这些模型能够生成类似放射学的描述，回答临床问题，并在图像和文本上执行多步推理。近年来，通用模型如GPT-4o、Flamingo和LLaVA，以及医学适应版本如LLaVA-Med、RadFM等，已经被用于医学影像的核心感知。然而，尽管这些模型在生成流畅的诊断叙述方面表现出色，但它们在基本的合理性检查上仍然存在显著差距。Moravec悖论指出，感知和空间推理对于人类来说是微不足道的，但对于机器来说，即使高层次的输出看似合理，也可能是极其困难的。在医学影像中，这种差距尤为重要，因为失败发生在诊断之前：当输入无效或不一致时，下游报告变得临床上无法解释。

核心问题

在临床实践中，解释始于诊断前的合理性检查：临床医生首先验证身体部位、视图、模态、侧向性、方向和基本图像完整性，如果这些检查失败，他们不会继续进行诊断。这一要求在多视图超声、多切片CT/MRI和多面板查看器代理工作流中尤为重要。现有的医学VLM基准测试如VQA-RAD、PathVQA、PMC-VQA、VQA-Med和SLAKE主要评估最终答案的正确性，而忽略了输入验证的重要性。这导致模型在生成流畅的诊断叙述时，可能忽略基本的合理性检查，从而在多图像或代理工作流中表现得脆弱且潜在不安全。

核心创新

MedObvious是第一个专注于医学影像输入验证的基准测试，强调在多图像集上的一致性能力。其创新之处在于：1）将输入验证作为一项独立的能力进行测试，而不是假设这一步骤已经解决；2）通过五个渐进层次和五种评估格式，全面评估模型在不同界面下的鲁棒性；3）引入负控样本，直接测量误报率，揭示模型在正常输入上的校准能力不足。

方法详解

MedObvious的设计包括以下关键步骤：

�� 任务构建：创建1880项任务，分为五个渐进层次，从基本的方向/模态不匹配到临床动机的解剖/视角验证和分诊风格的提示。

�� 评估格式：包括五种评估格式，以测试模型在不同界面下的鲁棒性。

�� 数据集选择：使用多种医学影像数据集，包括胸部X光片、CT、MRI、超声波等，通过元数据过滤来定义任务。

�� 模板生成：通过插入不同类别的图像或通过受控的完整性违规（如方向变化或物理不一致的合成）来创建任务。

�� 负控样本：引入明确的负控样本，直接测量误报率。

实验设计

实验设计包括评估17种不同的VLMs，使用五种评估格式测试其在不同界面下的鲁棒性。数据集包括多种医学影像数据集，如胸部X光片、CT、MRI、超声波等。基线模型包括通用模型如GPT-4o、Flamingo和LLaVA，以及医学适应版本如LLaVA-Med、RadFM等。评估指标包括准确率、误报率等，关键超参数包括任务数量、评估格式等。消融研究用于分析不同任务层次和评估格式对模型性能的影响。

结果分析

在评估的17种VLMs中，许多模型在正常输入（负控）上出现幻觉异常，性能在扩展到更大的图像集时下降，准确性在多项选择和开放式设置之间显著变化。最好的平均准确率达到63.2%，但负控准确率跨度很大，表明在正常输入上误报仍然普遍。在多项选择和开放式变体之间存在较大差距，表明格式敏感性强。消融研究表明，模型在不同任务层次和评估格式下的性能差异显著，尤其是在多图像集上的一致性能力上表现不佳。

应用场景

MedObvious为医学VLMs的诊断前验证提供了一个新的基准测试，强调了合理性检查的重要性。直接应用场景包括医学影像的输入验证、临床分诊等。前提条件包括模型在正常输入上的校准能力、对多图像集的一致性能力等。行业影响包括提高医学VLMs在临床应用中的安全性和可靠性，减少误报，提高诊断准确性。

局限与展望

该研究的局限之一是使用简化的网格进行测试，而不是完整的多系列卷和交互式查看器，这可能限制了结果的适用性。此外，模型在正常输入上的误报率较高，表明在正常情况下的校准是一个独立于诊断流畅性的难题。计算成本也是一个需要考虑的因素，尤其是在大规模数据集和复杂模型上进行评估时。未来的工作应扩展到完整的多系列卷和交互式查看器评估，以更好地模拟真实的临床环境，并探索如何提高模型在正常输入上的校准能力，以减少误报。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。你有一个食谱，上面写着你需要哪些食材和步骤。现在，假设你有一个智能助手，它可以帮你检查食材是否正确，比如鸡蛋是否新鲜，牛奶是否过期。这就像是视觉语言模型（VLMs）在医学影像中的作用。它们可以帮助医生检查图像是否正确，比如图像的方向是否正确，模态是否匹配等。然而，有时候这些助手可能会犯错，比如把坏掉的鸡蛋当成好的，或者把过期的牛奶当成新鲜的。这就是为什么我们需要一个像MedObvious这样的工具来测试这些助手的能力，确保它们在检查食材时不会犯错。通过这个工具，我们可以发现这些助手在检查食材时的不足之处，并帮助它们提高准确性，减少错误。

简单解释像给14岁少年讲一样

嘿，小伙伴！你知道医生在看X光片的时候，不仅仅是看图像，还要确保图像是正确的吗？就像你玩游戏的时候，得先检查手柄是不是连上了，游戏机是不是开了。医生也需要先检查图像的方向、模态等。这时候，视觉语言模型（VLMs）就像是医生的小助手，帮他们检查这些细节。但是，有时候这些助手也会犯错，就像你有时候会按错按钮一样。为了确保这些助手不犯错，我们需要一个叫MedObvious的工具来测试它们的能力。这个工具就像是一个超级测试员，帮我们找出助手的不足之处，让它们变得更聪明、更可靠。这样，医生就能更安心地使用这些助手啦！

术语表

视觉语言模型 (VLMs)

视觉语言模型是一种结合视觉和语言能力的人工智能模型，能够理解和生成图像和文本。

在本文中，VLMs用于医学影像的输入验证和诊断文本生成。

输入验证

输入验证是指在处理数据之前，检查输入数据的有效性和一致性，以确保后续处理的准确性。

本文中，输入验证用于检查医学影像的方向、模态等。

合理性检查

合理性检查是指在进行复杂分析之前，验证数据的基本完整性和一致性。

在临床实践中，合理性检查用于验证医学影像的基本信息。

负控样本

负控样本是指在实验中用于测试模型误报率的样本，通常是没有异常的正常样本。

本文中，负控样本用于测量模型在正常输入上的误报率。

多项选择 (MCQ)

多项选择是一种评估格式，要求受试者从多个选项中选择一个正确答案。

本文中，多项选择用于评估模型在不同任务中的表现。

开放式设置

开放式设置是一种评估格式，要求受试者自由回答问题，而不是从预设选项中选择。

本文中，开放式设置用于评估模型在不同任务中的表现。

消融研究

消融研究是一种实验方法，通过逐步去除模型的某些部分来评估其对整体性能的影响。

本文中，消融研究用于分析不同任务层次和评估格式对模型性能的影响。

模板生成

模板生成是一种创建实验任务的方法，通过预设的模板来生成不同的测试样本。

本文中，模板生成用于创建MedObvious的任务。

多图像集

多图像集是指包含多个相关图像的集合，通常用于评估模型在多个视图或切片上的一致性能力。

本文中，多图像集用于测试模型的输入验证能力。

Moravec悖论

Moravec悖论指出，感知和空间推理对于人类来说是微不足道的，但对于机器来说，即使高层次的输出看似合理，也可能是极其困难的。

本文中，Moravec悖论用于解释VLMs在输入验证上的困难。

开放问题这项研究留下的未解疑问

1 尽管MedObvious为医学VLMs的输入验证提供了一个新的基准测试，但其在完整的多系列卷和交互式查看器上的适用性仍需进一步验证。
2 当前模型在正常输入上的误报率较高，表明在正常情况下的校准是一个独立于诊断流畅性的难题，未来研究应探索如何提高模型在这方面的能力。
3 MedObvious的任务设计基于简化的网格，这可能限制了其在真实临床环境中的适用性，未来研究应扩展到更复杂的临床环境中进行评估。
4 尽管MedObvious揭示了模型在输入验证方面的不足，但其对模型在生成流畅诊断叙述时的影响尚不明确，未来研究应探索这一点。
5 当前的评估格式主要集中在多项选择和开放式设置上，未来研究应探索其他可能的评估格式，以更全面地评估模型的能力。

应用场景

近期应用

医学影像输入验证

MedObvious可以用于医学影像的输入验证，帮助医生检查图像的方向、模态等，确保输入的有效性和一致性。

临床分诊

通过合理性检查，MedObvious可以帮助医生在临床分诊中快速识别异常图像，提高诊断效率。

医学教育

MedObvious可以作为医学教育中的一个工具，帮助学生学习如何进行医学影像的合理性检查。

远期愿景

自动化医学诊断

通过提高VLMs的输入验证能力，MedObvious可以为自动化医学诊断提供基础，减少人为错误，提高诊断准确性。

智能医疗助手

MedObvious可以为智能医疗助手的发展提供支持，帮助医生在复杂的临床环境中进行合理性检查，提高医疗服务的质量。

原文摘要

Vision Language Models (VLMs) are increasingly used for tasks like medical report generation and visual question answering. However, fluent diagnostic text does not guarantee safe visual understanding. In clinical practice, interpretation begins with pre-diagnostic sanity checks: verifying that the input is valid to read (correct modality and anatomy, plausible viewpoint and orientation, and no obvious integrity violations). Existing benchmarks largely assume this step is solved, and therefore miss a critical failure mode: a model can produce plausible narratives even when the input is inconsistent or invalid. We introduce MedObvious, a 1,880-task benchmark that isolates input validation as a set-level consistency capability over small multi-panel image sets: the model must identify whether any panel violates expected coherence. MedObvious spans five progressive tiers, from basic orientation/modality mismatches to clinically motivated anatomy/viewpoint verification and triage-style cues, and includes five evaluation formats to test robustness across interfaces. Evaluating 17 different VLMs, we find that sanity checking remains unreliable: several models hallucinate anomalies on normal (negative-control) inputs, performance degrades when scaling to larger image sets, and measured accuracy varies substantially between multiple-choice and open-ended settings. These results show that pre-diagnostic verification remains unsolved for medical VLMs and should be treated as a distinct, safety-critical capability before deployment.

cs.CV cs.AI cs.CL

参考文献 (20)

MedRAX: Medical Reasoning Agent for Chest X-ray

Adibvafa Fallahpour, Jun Ma, Alif Munim 等

2025 44 引用查看解读 →

PathVQA: 30000+ Questions for Medical Visual Question Answering

Xuehai He, Yichen Zhang, Luntian Mou 等

2020 437 引用查看解读 →

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao 等

2023 301 引用查看解读 →

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Chunyuan Li, Cliff Wong, Sheng Zhang 等

2023 1519 引用查看解读 →

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning

Lasa Team, Weiwen Xu, Hou Pong Chan 等

2025 99 引用查看解读 →

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Jinguo Zhu, Weiyun Wang, Zhe Chen 等

2025 1089 引用查看解读 →

Detecting and Evaluating Medical Hallucinations in Large Vision Language Models

Jiawei Chen, Dingkang Yang, Tong Wu 等

2024 47 引用查看解读 →

OmniV-Med: Scaling Medical Vision-Language Model for Universal Visual Understanding

Songtao Jiang, Yuan Wang, Sibo Song 等

2025 14 引用查看解读 →

Towards generalist foundation model for radiology by leveraging web-scale 2D&3D medical data

Chaoyi Wu, Xiaoman Zhang, Ya Zhang 等

2025 164 引用

Radiology Objects in COntext (ROCO): A Multimodal Image Dataset

Obioma Pelka, Sven Koitka, Johannes Rückert 等

2018 312 引用

Visual Instruction Tuning

Haotian Liu, Chunyuan Li, Qingyang Wu 等

2023 8573 引用查看解读 →

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Peng Wang, Shuai Bai, Sinan Tan 等

2024 3606 引用查看解读 →

VQA-Med: Overview of the Medical Visual Question Answering Task at ImageCLEF 2019

Asma Ben Abacha, Sadid A. Hasan, Vivek Datla 等

2019 297 引用

Pixtral 12B

Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna 等

2024 138 引用查看解读 →

Slake: A Semantically-Labeled Knowledge-Enhanced Dataset For Medical Visual Question Answering

Bo Liu, Li-Ming Zhan, Li Xu 等

2021 504 引用查看解读 →

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

Zhe Chen, Weiyun Wang, Yue Cao 等

2024 1303 引用查看解读 →

MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

Jiazhen Pan, Che Liu, Junde Wu 等

2025 144 引用查看解读 →

VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge

Vishwesh Nath, Wenqi Li, Dong Yang 等

2024 49 引用查看解读 →

3D Slicer as an image computing platform for the Quantitative Imaging Network.

Andrey Fedorov, R. Beichel, Jayashree Kalpathy-Cramer 等

2012 7801 引用

Flamingo: a Visual Language Model for Few-Shot Learning

Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc 等

2022 5386 引用查看解读 →

MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

视觉语言模型 (VLMs)

输入验证

合理性检查

负控样本

多项选择 (MCQ)

开放式设置

消融研究

模板生成

多图像集

Moravec悖论

开放问题 这项研究留下的未解疑问

应用场景

近期应用

医学影像输入验证

临床分诊

医学教育

远期愿景

自动化医学诊断

智能医疗助手

原文摘要

参考文献 (20)

相关论文

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

SS3D: End2End Self-Supervised 3D from Web Videos

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问