MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

TL;DR

MM-CondChain通过VPIR实现视觉深层组合推理,最强模型仅达53.33 Path F1。

cs.CV 🔴 高级 2026-03-13 16 次浏览
Haozhan Shen Shilin Yan Hongwei Xue Shuaiqi Lu Xiaojun Tang Guannan Zhang Tiancheng Zhao Jianwei Yin
多模态 深度学习 组合推理 视觉推理 基准测试

核心发现

方法论

本研究提出了一种名为MM-CondChain的基准测试,用于评估多模态大语言模型在视觉深层组合推理中的能力。该方法通过一个代理合成管道生成数据,包含一个规划器(Planner)和一个可验证的程序中间表示(VPIR),以确保每层条件的机械可验证性。随后,作曲器(Composer)将这些经过验证的层组装成完整的指令。

关键结果

  • 在三个视觉领域(自然图像、数据图表和GUI轨迹)中进行的实验表明,即使是最强的模型也仅能达到53.33的Path F1,尤其在深度增加或谓词复杂性增加时表现显著下降。
  • 在False-path上,模型表现明显不如True-path,表明在复杂条件下模型倾向于假设条件成立。
  • 在GUI领域,模型表现最差,最佳F1仅为40.19,低于自然图像和数据图表领域。

研究意义

本研究通过引入MM-CondChain填补了现有基准测试在深层组合推理能力评估上的空白。通过验证视觉输入的多因素条件,该基准测试为多模态大语言模型的能力提供了更全面的评估框架。这对于推动视觉推理领域的发展具有重要意义,尤其是在复杂视觉工作流中。

技术贡献

MM-CondChain的技术贡献在于其创新性地使用VPIR来确保每层条件的机械可验证性,从而避免了逻辑冲突和不明确的视觉引用。此外,通过代理合成管道,该方法能够在大规模上构建复杂的工作流风格数据。

新颖性

MM-CondChain首次实现了对视觉深层组合条件的系统评估,与现有基准测试相比,其创新之处在于引入了可验证的程序中间表示(VPIR),确保每层条件的逻辑一致性。

局限性

  • 当前模型在深层组合推理中的表现仍然有限,尤其是在False-path上表现不佳,表明模型在检测违反条件方面存在不足。
  • 在GUI领域的表现最差,可能是由于需要对多帧轨迹、用户操作和界面状态转换进行推理。

未来方向

未来的研究方向包括改进模型在深层组合推理中的表现,特别是在False-path上的准确性。此外,可以探索更复杂的视觉领域和条件,以进一步挑战和提升模型的推理能力。

AI 总览摘要

近年来,多模态大语言模型(MLLMs)在视觉工作流中得到了广泛应用,例如导航图形用户界面(GUI)。然而,现有的基准测试主要关注浅层组合或独立约束,而忽视了深层组合条件的评估。在此背景下,本文提出了MM-CondChain,这是一个用于视觉深层组合推理的基准测试。

MM-CondChain的每个基准实例都组织为多层推理链,每层包含一个基于视觉证据的非平凡组合条件。为了正确回答,MLLM必须详细感知图像,在每个步骤中推理多个视觉元素,并遵循执行路径直到最终结果。为了大规模构建这种工作流风格的数据,作者提出了一种代理合成管道:一个规划器(Planner)逐层生成组合条件,而一个可验证的程序中间表示(VPIR)确保每层条件的机械可验证性。然后,作曲器(Composer)将这些经过验证的层组装成完整的指令。

通过这一管道,作者在三个视觉领域(自然图像、数据图表和GUI轨迹)中构建了基准测试。实验结果表明,即使是最强的模型也仅能达到53.33的Path F1,尤其在深度增加或谓词复杂性增加时表现显著下降。这一结果表明,视觉深层组合推理仍然是一个基本挑战。

MM-CondChain的引入填补了现有基准测试在深层组合推理能力评估上的空白。通过验证视觉输入的多因素条件,该基准测试为多模态大语言模型的能力提供了更全面的评估框架。这对于推动视觉推理领域的发展具有重要意义,尤其是在复杂视觉工作流中。

尽管如此,当前模型在深层组合推理中的表现仍然有限,尤其是在False-path上表现不佳,表明模型在检测违反条件方面存在不足。未来的研究方向包括改进模型在深层组合推理中的表现,特别是在False-path上的准确性。此外,可以探索更复杂的视觉领域和条件,以进一步挑战和提升模型的推理能力。

深度分析

研究背景

多模态大语言模型(MLLMs)近年来在视觉推理任务中展现出了巨大的潜力。随着技术的进步,这些模型被期望能够超越简单的视觉问答,处理复杂的视觉工作流。然而,现有的基准测试大多集中在浅层组合或独立约束上,而忽视了深层组合条件的评估。这种缺乏深度评估的现状限制了我们对MLLMs在复杂视觉任务中能力的全面理解。为了填补这一空白,本文提出了MM-CondChain,一个专门用于评估视觉深层组合推理能力的基准测试。

核心问题

现有的基准测试在评估MLLMs的深层组合推理能力方面存在不足。具体来说,这些基准测试通常只涉及单层组合或独立约束,而没有系统地探讨多层组合条件的推理能力。这种缺乏评估深度的现状限制了我们对MLLMs在复杂视觉任务中能力的全面理解。

核心创新

MM-CondChain的核心创新在于其代理合成管道和可验证的程序中间表示(VPIR)。

  • �� 代理合成管道:通过规划器逐层生成组合条件,确保每层条件的逻辑一致性。
  • �� 可验证的程序中间表示(VPIR):确保每层条件的机械可验证性,避免逻辑冲突和不明确的视觉引用。
  • �� 作曲器:将经过验证的层组装成完整的指令,确保指令的完整性和准确性。

方法详解

MM-CondChain的构建过程包括以下几个关键步骤:

  • �� 规划器(Planner):负责逐层生成组合条件,确保每层条件的逻辑一致性。
  • �� 可验证的程序中间表示(VPIR):用于验证每层条件的机械可验证性,避免逻辑冲突。
  • �� 作曲器(Composer):将经过验证的层组装成完整的指令,确保指令的完整性和准确性。
  • �� 数据集构建:在自然图像、数据图表和GUI轨迹三个领域中构建基准测试。

实验设计

实验设计包括在三个视觉领域(自然图像、数据图表和GUI轨迹)中测试多种MLLMs。使用的基准测试包括SAM2023、GQA2019、ChartQA2022和AITZ2024a等。评估指标包括True-path和False-path的准确性,以及Path F1的平均值。实验还包括消融研究,以探讨不同模型在不同条件下的表现。

结果分析

实验结果表明,即使是最强的模型也仅能达到53.33的Path F1,尤其在深度增加或谓词复杂性增加时表现显著下降。在False-path上,模型表现明显不如True-path,表明在复杂条件下模型倾向于假设条件成立。在GUI领域,模型表现最差,最佳F1仅为40.19,低于自然图像和数据图表领域。

应用场景

MM-CondChain的应用场景包括评估多模态大语言模型在复杂视觉任务中的能力。这对于需要精确视觉推理的应用,如自动驾驶、智能监控和人机交互等领域具有重要意义。通过验证视觉输入的多因素条件,该基准测试为多模态大语言模型的能力提供了更全面的评估框架。

局限与展望

尽管MM-CondChain提供了一个全面的评估框架,但当前模型在深层组合推理中的表现仍然有限,尤其是在False-path上表现不佳。此外,GUI领域的表现最差,可能是由于需要对多帧轨迹、用户操作和界面状态转换进行推理。未来的研究方向包括改进模型在深层组合推理中的表现,特别是在False-path上的准确性。

通俗解读 非专业人士也能看懂

想象你在厨房里做一道复杂的菜肴。首先,你需要根据食谱准备好所有的食材,这就像MM-CondChain中的规划器(Planner),它负责逐层生成组合条件。接下来,你需要确保每个步骤都按照食谱进行,比如切菜、煮沸等,这就像可验证的程序中间表示(VPIR),确保每层条件的机械可验证性。最后,你需要将所有的步骤组合在一起,完成这道菜,这就像作曲器(Composer),将经过验证的层组装成完整的指令。整个过程需要精确的操作和对每个步骤的严格遵循,以确保最终的菜肴美味可口,就像MM-CondChain确保每个条件的逻辑一致性和准确性。

简单解释 像给14岁少年讲一样

嘿,小伙伴!想象一下你在玩一个超级复杂的游戏。这个游戏有很多关卡,每一关都有不同的任务,比如找到隐藏的宝藏或者解开谜题。为了过关,你需要一步一步地完成每个任务,就像MM-CondChain中的规划器(Planner),它帮助你逐层生成任务。每个任务都有特定的规则,你必须严格遵循,就像可验证的程序中间表示(VPIR),确保每个任务的规则被正确执行。最后,你需要将所有任务完成,才能赢得游戏,就像作曲器(Composer),将所有经过验证的任务组合成一个完整的胜利计划。这个游戏需要你仔细观察和准确执行每个任务,才能最终赢得胜利!

术语表

多模态大语言模型 (MLLMs)

多模态大语言模型是一种能够处理和理解多种数据模态(如文本、图像、音频等)的人工智能模型。

在本文中,MLLMs被用于评估其在视觉深层组合推理中的能力。

组合推理

组合推理是指通过组合多个条件或因素来进行推理和决策的过程。

MM-CondChain通过组合多个视觉条件来评估模型的推理能力。

可验证的程序中间表示 (VPIR)

VPIR是一种用于验证每层条件的机械可验证性的程序表示,确保逻辑一致性。

VPIR在MM-CondChain中用于验证每层条件的正确性。

规划器 (Planner)

规划器是一种用于逐层生成组合条件的组件,确保每层条件的逻辑一致性。

在MM-CondChain中,规划器负责生成每个基准实例的组合条件。

作曲器 (Composer)

作曲器是一种将经过验证的层组装成完整指令的组件,确保指令的完整性和准确性。

在MM-CondChain中,作曲器负责将经过验证的层组合成完整的指令。

Path F1

Path F1是一种评估模型在True-path和False-path上表现的指标,衡量模型的综合表现。

在实验中,Path F1被用来评估模型在不同条件下的表现。

True-path

True-path是指在所有条件都成立的情况下,模型需要遵循的执行路径。

实验中,True-path的准确性用于评估模型在条件成立时的表现。

False-path

False-path是指在某个条件被最小扰动替换的情况下,模型需要遵循的执行路径。

实验中,False-path的准确性用于评估模型在条件不成立时的表现。

深层组合推理

深层组合推理是指通过多层组合条件进行推理和决策的过程。

MM-CondChain用于评估模型在深层组合推理中的能力。

视觉工作流

视觉工作流是指一系列需要视觉输入和推理的任务或步骤。

在本文中,视觉工作流被用于评估模型在复杂视觉任务中的能力。

开放问题 这项研究留下的未解疑问

  • 1 尽管MM-CondChain提供了一个全面的评估框架,但当前模型在深层组合推理中的表现仍然有限,尤其是在False-path上表现不佳。未来的研究需要探索改进模型在检测违反条件方面的能力。
  • 2 在GUI领域,模型表现最差,可能是由于需要对多帧轨迹、用户操作和界面状态转换进行推理。未来的研究可以探索更复杂的视觉领域和条件,以进一步挑战和提升模型的推理能力。
  • 3 当前的基准测试主要集中在自然图像、数据图表和GUI轨迹三个领域。未来可以探索其他视觉领域,如视频分析和三维场景理解,以评估模型在更广泛的视觉任务中的能力。
  • 4 虽然VPIR确保了每层条件的机械可验证性,但在实际应用中,如何处理不确定性和噪声仍然是一个挑战。未来的研究可以探索更鲁棒的验证方法。
  • 5 在多模态大语言模型的训练中,如何有效地结合视觉和语言信息以提高推理能力仍然是一个开放问题。未来的研究可以探索更有效的多模态融合方法。

应用场景

近期应用

自动驾驶

MM-CondChain可以用于评估自动驾驶系统在复杂交通环境中的决策能力,确保系统能够正确识别和响应多种视觉条件。

智能监控

在智能监控系统中,MM-CondChain可以用于评估系统在复杂场景中的事件检测和响应能力,确保系统的准确性和可靠性。

人机交互

MM-CondChain可以用于评估人机交互系统在复杂界面中的响应能力,确保系统能够正确理解和响应用户的多模态输入。

远期愿景

视觉推理的全面评估

MM-CondChain可以作为一个标准框架,用于全面评估多模态大语言模型在各种视觉任务中的推理能力,推动视觉推理领域的发展。

多模态融合方法的改进

通过MM-CondChain的评估结果,可以探索和改进多模态大语言模型的融合方法,提高模型在复杂视觉任务中的推理能力。

原文摘要

Multimodal Large Language Models (MLLMs) are increasingly used to carry out visual workflows such as navigating GUIs, where the next step depends on verified visual compositional conditions (e.g., "if a permission dialog appears and the color of the interface is green, click Allow") and the process may branch or terminate early. Yet this capability remains under-evaluated: existing benchmarks focus on shallow-compositions or independent-constraints rather than deeply chained compositional conditionals. In this paper, we introduce MM-CondChain, a benchmark for visually grounded deep compositional reasoning. Each benchmark instance is organized as a multi-layer reasoning chain, where every layer contains a non-trivial compositional condition grounded in visual evidence and built from multiple objects, attributes, or relations. To answer correctly, an MLLM must perceive the image in detail, reason over multiple visual elements at each step, and follow the resulting execution path to the final outcome. To scalably construct such workflow-style data, we propose an agentic synthesis pipeline: a Planner orchestrates layer-by-layer generation of compositional conditions, while a Verifiable Programmatic Intermediate Representation (VPIR) ensures each layer's condition is mechanically verifiable. A Composer then assembles these verified layers into complete instructions. Using this pipeline, we construct benchmarks across three visual domains: natural images, data charts, and GUI trajectories. Experiments on a range of MLLMs show that even the strongest model attains only 53.33 Path F1, with sharp drops on hard negatives and as depth or predicate complexity grows, confirming that deep compositional reasoning remains a fundamental challenge.

cs.CV

参考文献 (20)

MM-IFEngine: Towards Multimodal Instruction Following

Shengyuan Ding, Shenxi Wu, Xiangyu Zhao 等

2025 27 引用 ⭐ 高影响力 查看解读 →

FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models

Yuxin Jiang, Yufei Wang, Xingshan Zeng 等

2023 77 引用 ⭐ 高影响力 查看解读 →

Benchmarking Complex Instruction-Following with Multiple Constraints Composition

Bosi Wen, Pei Ke, Xiaotao Gu 等

2024 115 引用 ⭐ 高影响力 查看解读 →

Generalizing Verifiable Instruction Following

Valentina Pyatkin, Saumya Malik, Victoria Graf 等

2025 46 引用 ⭐ 高影响力 查看解读 →

Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

Pengxiang Li, Shilin Yan, Joey Tsai 等

2025 17 引用 ⭐ 高影响力 查看解读 →

Instruction-Following Evaluation for Large Language Models

Jeffrey Zhou, Tianjian Lu, Swaroop Mishra 等

2023 697 引用 ⭐ 高影响力 查看解读 →

CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms

Shilin Yan, Jiaming Han, Joey Tsai 等

2025 10 引用 查看解读 →

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

Hao Shao, Shengju Qian, Han Xiao 等

2024 252 引用 查看解读 →

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 3560 引用 查看解读 →

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

Yusu Qian, Hanrong Ye, J. Fauconnier 等

2024 47 引用 查看解读 →

SugarCrepe: Fixing Hackable Benchmarks for Vision-Language Compositionality

Cheng-Yu Hsieh, Jieyu Zhang, Zixian Ma 等

2023 210 引用 查看解读 →

ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations

Xuecheng Wu, Jiaxing Liu, Danlei Huang 等

2025 6 引用 查看解读 →

MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models

Hang Hua, Yunlong Tang, Ziyun Zeng 等

2024 25 引用 查看解读 →

Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

Qinyan Zhang, Xinping Lei, Ruijie Miao 等

2025 2 引用 查看解读 →

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Omkar Thawakar, Dinura Dissanayake, Ketan More 等

2025 119 引用 查看解读 →

GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

Drew A. Hudson, Christopher D. Manning

2019 2851 引用

MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs

Yunqiu Xu, Linchao Zhu, Yi Yang

2024 31 引用 查看解读 →

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts

Pan Lu, Hritik Bansal, Tony Xia 等

2023 1323 引用 查看解读 →

An Explainable Toolbox for Evaluating Pre-trained Vision-Language Models

Tiancheng Zhao, Tianqi Zhang, Mingwei Zhu 等

2022 23 引用

Segment Anything

A. Kirillov, Eric Mintun, Nikhila Ravi 等

2023 12274 引用 查看解读 →