EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

TL;DR

EndoCoT通过激活MLLMs的推理潜力，实现了92.1%的准确率，比基线高8.3%。

cs.CV 🔴 高级 2026-03-13 13 次浏览

Xuanlang Dai Yujie Zhou Long Xing Jiazi Bu Xilin Wei Yuhong Liu Beichen Zhang Kai Chen Yuhang Zang

多模态大语言模型扩散模型内生思维链推理深度终端思维对齐

核心发现

方法论

EndoCoT框架通过迭代思维引导模块激活多模态大语言模型（MLLMs）的推理潜力，逐步细化潜在思维状态，并将这些状态与扩散模型（DiT）的去噪过程连接起来。其次，应用终端思维对齐模块，确保推理轨迹在文本监督中保持一致，通过将最终状态与真实答案对齐。这两个组件使得MLLM文本编码器能够提供经过精细推理的指导，进而使DiT能够逐步执行这些指导，最终以逐步方式解决复杂任务。

关键结果

在广泛的基准测试中（如迷宫、旅行商问题、视觉搜索问题和数独），EndoCoT框架实现了平均92.1%的准确率，比最强基线高出8.3个百分点。这表明该方法在复杂任务中的推理能力显著增强。
在迷宫任务中，EndoCoT框架展示了其在空间推理方面的卓越性能，能够有效地将复杂指令分解为可操作的去噪步骤。
在数独任务中，EndoCoT框架通过精细的推理指导，显著提高了任务完成的准确性，展示了其在逻辑推理任务中的潜力。

研究意义

EndoCoT框架在学术界和工业界具有重要意义。通过解决MLLMs在推理深度上的不足，该框架为复杂任务提供了更为准确的指导。这种方法不仅提高了现有扩散模型在复杂任务中的性能，还为未来的多模态推理研究提供了新的视角。尤其是在需要深度推理的任务中，如空间推理和逻辑推理，EndoCoT框架展示了其独特的优势。

技术贡献

EndoCoT的技术贡献在于其在现有最先进方法基础上的根本性差异。通过引入迭代思维引导模块和终端思维对齐模块，该框架提供了新的理论保证和工程可能性。与传统的单步编码方法不同，EndoCoT能够在推理过程中动态调整指导，确保推理轨迹与文本监督保持一致。这种方法不仅提高了推理深度，还增强了模型在复杂任务中的适应性。

新颖性

EndoCoT框架的创新之处在于首次将内生思维链引入到多模态大语言模型的推理过程中。与以往的工作相比，该框架通过迭代细化潜在思维状态，显著提高了推理深度和准确性。这种方法为复杂任务的解决提供了新的思路，尤其是在需要逐步推理的任务中。

局限性

EndoCoT框架在处理某些特定类型的复杂任务时可能会遇到性能瓶颈，尤其是在需要大量计算资源的情况下。
该框架的迭代过程可能导致计算开销增加，影响其在资源受限环境中的应用。
在某些任务中，终端思维对齐模块可能无法完全消除推理误差，影响最终结果的准确性。

未来方向

未来的研究方向包括优化EndoCoT框架的计算效率，以便在资源受限的环境中应用。此外，探索如何将该框架应用于更多类型的复杂任务，如自然语言理解和生成任务，也是一个重要的研究方向。进一步的工作还可以集中在改进终端思维对齐模块，以提高推理过程的准确性和一致性。

AI 总览摘要

近年来，多模态大语言模型（MLLMs）在扩散框架中被广泛应用，主要作为文本编码器来解决复杂任务，如空间推理。然而，这种范式存在两个关键限制：首先，MLLMs文本编码器的推理深度不足。单步编码无法激活思维链过程，而思维链对于MLLMs提供准确指导至关重要。其次，在解码过程中，指导保持不变。解码期间的不变指导阻止了DiT逐步将复杂指令分解为可操作的去噪步骤，即使MLLM编码正确。为此，我们提出了内生思维链（EndoCoT），这是一种新颖的框架，首先通过迭代思维引导模块迭代细化潜在思维状态，激活MLLMs的推理潜力，然后将这些状态与DiT的去噪过程连接起来。其次，应用终端思维对齐模块，确保推理轨迹在文本监督中保持一致，通过将最终状态与真实答案对齐。通过这两个组件，MLLM文本编码器提供了经过精细推理的指导，使DiT能够逐步执行这些指导，最终以逐步方式解决复杂任务。

在广泛的基准测试中（如迷宫、旅行商问题、视觉搜索问题和数独），EndoCoT框架实现了平均92.1%的准确率，比最强基线高出8.3个百分点。这表明该方法在复杂任务中的推理能力显著增强。EndoCoT框架在学术界和工业界具有重要意义。通过解决MLLMs在推理深度上的不足，该框架为复杂任务提供了更为准确的指导。这种方法不仅提高了现有扩散模型在复杂任务中的性能，还为未来的多模态推理研究提供了新的视角。尤其是在需要深度推理的任务中，如空间推理和逻辑推理，EndoCoT框架展示了其独特的优势。

然而，EndoCoT框架在处理某些特定类型的复杂任务时可能会遇到性能瓶颈，尤其是在需要大量计算资源的情况下。该框架的迭代过程可能导致计算开销增加，影响其在资源受限环境中的应用。在某些任务中，终端思维对齐模块可能无法完全消除推理误差，影响最终结果的准确性。未来的研究方向包括优化EndoCoT框架的计算效率，以便在资源受限的环境中应用。此外，探索如何将该框架应用于更多类型的复杂任务，如自然语言理解和生成任务，也是一个重要的研究方向。进一步的工作还可以集中在改进终端思维对齐模块，以提高推理过程的准确性和一致性。

深度分析

研究背景

近年来，多模态大语言模型（MLLMs）在处理复杂任务方面取得了显著进展，尤其是在需要多模态信息融合的任务中。传统的MLLMs通常作为文本编码器，结合扩散模型（DiT）来处理复杂的空间推理任务。然而，这些方法在推理深度和指导动态性方面存在显著不足。以往的研究主要集中在提高模型的编码能力，但在解码过程中，指导信息往往保持不变，限制了模型在复杂任务中的表现。EndoCoT框架的提出旨在解决这些长期存在的问题，通过引入内生思维链，增强MLLMs的推理能力。

核心问题

现有的多模态大语言模型在处理复杂任务时，面临两个主要问题：一是推理深度不足，单步编码无法激活思维链过程，导致指导信息不够准确；二是在解码过程中，指导信息保持不变，阻碍了扩散模型逐步将复杂指令分解为可操作的去噪步骤。这些问题限制了模型在复杂任务中的表现，尤其是在需要逐步推理的任务中。

核心创新

EndoCoT框架的核心创新在于：

1. 引入迭代思维引导模块，通过迭代细化潜在思维状态，激活MLLMs的推理潜力。这种方法能够在推理过程中动态调整指导信息，确保推理轨迹与文本监督保持一致。

2. 应用终端思维对齐模块，通过将最终状态与真实答案对齐，确保推理轨迹在文本监督中保持一致。这种方法显著提高了推理深度和准确性。

3. 首次将内生思维链引入到多模态大语言模型的推理过程中，为复杂任务的解决提供了新的思路。

方法详解

EndoCoT框架的详细方法包括以下步骤：

�� 迭代思维引导模块：通过迭代细化潜在思维状态，激活MLLMs的推理潜力。输入为初始思维状态，过程包括多次迭代，每次迭代细化思维状态，输出为更新后的思维状态。
�� 终端思维对齐模块：通过将最终状态与真实答案对齐，确保推理轨迹在文本监督中保持一致。输入为最终思维状态，过程包括对齐操作，输出为对齐后的思维状态。
�� 将更新后的思维状态与扩散模型的去噪过程连接，确保模型能够逐步执行指导信息，最终解决复杂任务。

实验设计

实验设计包括多个基准测试，如迷宫、旅行商问题、视觉搜索问题和数独。使用的数据集包括公开的标准数据集，基线方法为现有最先进的多模态大语言模型。评估指标包括准确率和推理深度。关键超参数包括迭代次数和对齐精度。实验还包括消融研究，以验证每个模块的贡献。

结果分析

实验结果表明，EndoCoT框架在多个基准测试中表现优异，平均准确率达到92.1%，比最强基线高出8.3个百分点。在迷宫任务中，EndoCoT框架展示了其在空间推理方面的卓越性能，能够有效地将复杂指令分解为可操作的去噪步骤。在数独任务中，EndoCoT框架通过精细的推理指导，显著提高了任务完成的准确性，展示了其在逻辑推理任务中的潜力。

应用场景

EndoCoT框架的应用场景包括需要深度推理的复杂任务，如空间推理和逻辑推理。在这些任务中，EndoCoT框架能够提供更为准确的指导，提高任务完成的准确性和效率。工业界可以利用该框架来开发更为智能的多模态系统，提升自动化水平。

局限与展望

EndoCoT框架在处理某些特定类型的复杂任务时可能会遇到性能瓶颈，尤其是在需要大量计算资源的情况下。该框架的迭代过程可能导致计算开销增加，影响其在资源受限环境中的应用。在某些任务中，终端思维对齐模块可能无法完全消除推理误差，影响最终结果的准确性。未来的研究方向包括优化EndoCoT框架的计算效率，以便在资源受限的环境中应用。此外，探索如何将该框架应用于更多类型的复杂任务，如自然语言理解和生成任务，也是一个重要的研究方向。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。传统的多模态大语言模型就像是一个只会按照菜谱一步一步做菜的厨师。他们可以很好地遵循指令，但如果菜谱不够详细，他们就会遇到麻烦。而EndoCoT框架就像是一个经验丰富的厨师，他不仅能按照菜谱做菜，还能根据食材的变化和客人的口味调整做法。这个框架通过不断地检查和调整思维过程，确保每一步都能准确地达到最终的美味效果。就像这个厨师在做菜的过程中，不断地品尝和调整调味料，EndoCoT框架在解决复杂任务时，也会不断地调整推理过程，以确保最终的结果是准确的。这样一来，即使面对复杂的任务，EndoCoT框架也能像这位厨师一样，灵活应对，做出令人满意的结果。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超级复杂的解谜游戏。传统的游戏助手就像是一本攻略书，它会告诉你每一步该怎么做，但如果攻略不够详细，你可能会卡住。而EndoCoT框架就像是一个超级聪明的游戏助手，它不仅能告诉你怎么做，还能根据你的进度和游戏变化给出新的建议。这个框架就像是一个能不断学习和调整的助手，它会在每一步都检查你的进度，确保你能顺利通关。就像在游戏中，你可能会遇到一些新的挑战，但有了这个聪明的助手，你总能找到解决办法，最终赢得游戏！是不是很酷？

术语表

Multimodal Large Language Models (多模态大语言模型)

一种能够处理多种模态信息（如文本、图像、音频等）的语言模型，通常用于复杂任务的解决。

在本文中，MLLMs主要作为文本编码器，结合扩散模型来处理复杂任务。

Diffusion Models (扩散模型)

一种用于生成数据的概率模型，通过逐步去噪的方式生成目标数据。

在本文中，扩散模型用于逐步将复杂指令分解为可操作的去噪步骤。

Chain-of-Thought (思维链)

一种推理过程，通过逐步细化思维状态来解决复杂任务。

在本文中，思维链用于激活MLLMs的推理潜力。

Iterative Thought Guidance Module (迭代思维引导模块)

一个用于迭代细化潜在思维状态的模块，激活MLLMs的推理潜力。

在本文中，该模块用于动态调整推理过程中的指导信息。

Terminal Thought Grounding Module (终端思维对齐模块)

一个用于确保推理轨迹在文本监督中保持一致的模块，通过将最终状态与真实答案对齐。

在本文中，该模块用于提高推理过程的准确性和一致性。

Maze (迷宫)

一种空间推理任务，要求模型在复杂的迷宫中找到正确的路径。

在本文中，迷宫任务用于评估EndoCoT框架的空间推理能力。

TSP (旅行商问题)

一种组合优化问题，要求找到访问一系列城市的最短路径。

在本文中，旅行商问题用于评估EndoCoT框架的推理能力。

VSP (视觉搜索问题)

一种需要在复杂视觉场景中找到特定目标的任务。

在本文中，视觉搜索问题用于评估EndoCoT框架的视觉推理能力。

Sudoku (数独)

一种逻辑推理游戏，要求填充数字使每行、每列和每个小方块都包含1到9。

在本文中，数独任务用于评估EndoCoT框架的逻辑推理能力。

Accuracy (准确率)

一种评估模型性能的指标，表示模型预测正确的比例。

在本文中，准确率用于评估EndoCoT框架在各个基准测试中的表现。

开放问题这项研究留下的未解疑问

1 当前的多模态大语言模型在处理需要深度推理的复杂任务时，仍然面临推理深度不足的问题。尽管EndoCoT框架通过引入内生思维链提高了推理深度，但在某些特定任务中，推理过程仍然可能受到限制。未来的研究需要进一步探索如何增强模型的推理能力，以便在更广泛的任务中应用。
2 在资源受限的环境中，EndoCoT框架的计算开销可能会成为瓶颈。尽管该框架在复杂任务中表现优异，但其迭代过程可能导致计算资源的消耗增加。未来的研究需要探索如何优化计算效率，以便在资源受限的环境中应用。
3 终端思维对齐模块在某些任务中可能无法完全消除推理误差，影响最终结果的准确性。尽管该模块提高了推理过程的准确性和一致性，但在某些复杂任务中，仍然可能存在误差。未来的研究需要探索如何改进该模块，以提高推理过程的准确性。
4 EndoCoT框架在处理某些特定类型的复杂任务时可能会遇到性能瓶颈，尤其是在需要大量计算资源的情况下。未来的研究需要探索如何优化框架的性能，以便在更广泛的任务中应用。
5 尽管EndoCoT框架在多个基准测试中表现优异，但其在实际应用中的表现仍需进一步验证。未来的研究需要探索如何将该框架应用于更多类型的复杂任务，如自然语言理解和生成任务。

应用场景

近期应用

复杂任务解决

EndoCoT框架可以用于解决需要深度推理的复杂任务，如空间推理和逻辑推理。通过提供更为准确的指导，该框架可以提高任务完成的准确性和效率。

多模态系统开发

工业界可以利用EndoCoT框架来开发更为智能的多模态系统，提升自动化水平。这些系统可以在需要多模态信息融合的任务中表现出色。

推理能力增强

EndoCoT框架可以用于增强现有多模态大语言模型的推理能力，使其在复杂任务中表现更为优异。

远期愿景

自然语言理解与生成

未来，EndoCoT框架可以应用于自然语言理解和生成任务，提高模型在这些任务中的表现。

智能系统的广泛应用

随着EndoCoT框架的不断优化，未来可以在更多类型的智能系统中应用，提升其在复杂任务中的表现。

原文摘要

Recently, Multimodal Large Language Models (MLLMs) have been widely integrated into diffusion frameworks primarily as text encoders to tackle complex tasks such as spatial reasoning. However, this paradigm suffers from two critical limitations: (i) MLLMs text encoder exhibits insufficient reasoning depth. Single-step encoding fails to activate the Chain-of-Thought process, which is essential for MLLMs to provide accurate guidance for complex tasks. (ii) The guidance remains invariant during the decoding process. Invariant guidance during decoding prevents DiT from progressively decomposing complex instructions into actionable denoising steps, even with correct MLLM encodings. To this end, we propose Endogenous Chain-of-Thought (EndoCoT), a novel framework that first activates MLLMs' reasoning potential by iteratively refining latent thought states through an iterative thought guidance module, and then bridges these states to the DiT's denoising process. Second, a terminal thought grounding module is applied to ensure the reasoning trajectory remains grounded in textual supervision by aligning the final state with ground-truth answers. With these two components, the MLLM text encoder delivers meticulously reasoned guidance, enabling the DiT to execute it progressively and ultimately solve complex tasks in a step-by-step manner. Extensive evaluations across diverse benchmarks (e.g., Maze, TSP, VSP, and Sudoku) achieve an average accuracy of 92.1%, outperforming the strongest baseline by 8.3 percentage points.

cs.CV cs.CL

参考文献 (20)

Qwen-Image Technical Report

Chenfei Wu, Jiahao Li, Jingren Zhou 等

2025 391 引用 ⭐ 高影响力查看解读 →

ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

J. Wu, Xuanchi Ren, Tianchang Shen 等

2025 8 引用 ⭐ 高影响力查看解读 →

DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models

Zefeng He, Xiaoye Qu, Yafu Li 等

2025 3 引用 ⭐ 高影响力查看解读 →

Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning

Haoji Zhang, Xin Gu, Jiawen Li 等

2025 39 引用查看解读 →

Learning Transferable Visual Models From Natural Language Supervision

Alec Radford, Jong Wook Kim, Chris Hallacy 等

2021 44752 引用查看解读 →

Thinking Images

Paul Kaiser, Marc Downie, J. Birringer

2008 51 引用

D-AR: Diffusion via Autoregressive Models

Ziteng Gao, Mike Zheng Shou

2025 5 引用查看解读 →

Graph of Thoughts: Solving Elaborate Problems with Large Language Models

Maciej Besta, Nils Blach, Aleš Kubíček 等

2023 1171 引用查看解读 →

Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains

Wenhui Tan, Jiaze Li, Jianzhong Ju 等

2025 38 引用查看解读 →

Flow Matching for Generative Modeling

Y. Lipman, Ricky T. Q. Chen, Heli Ben-Hamu 等

2022 3558 引用查看解读 →

CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation

Zhenyi Shen, Hanqi Yan, Linhai Zhang 等

2025 105 引用查看解读 →

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

Hao Fei, Shengqiong Wu, Wei Ji 等

2024 160 引用查看解读 →

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 3557 引用查看解读 →

A Very Big Video Reasoning Suite

Maijunxian Wang, Ruisi Wang, Juyi Lin 等

2026 1 引用查看解读 →

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

Jingqi Tong, Yurong Mou, Hangcheng Li 等

2025 18 引用查看解读 →

Real-Time Intermediate Flow Estimation for Video Frame Interpolation

Zhewei Huang, Tianyuan Zhang, Wen Heng 等

2020 290 引用查看解读 →

A Survey on Test-Time Scaling in Large Language Models: What, How, Where, and How Well?

Qiyuan Zhang, Fuyuan Lyu, Zexu Sun 等

2025 118 引用查看解读 →

The Art of Scaling Test-Time Compute for Large Language Models

Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty

2025 6 引用查看解读 →

Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

Yiming Qin, Bomin Wei, Jiaxin Ge 等

2025 14 引用查看解读 →

Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

Zhen Zhang, Xuehai He, Weixiang Yan 等

2025 56 引用查看解读 →

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Multimodal Large Language Models (多模态大语言模型)

Diffusion Models (扩散模型)

Chain-of-Thought (思维链)

Iterative Thought Guidance Module (迭代思维引导模块)

Terminal Thought Grounding Module (终端思维对齐模块)

Maze (迷宫)

TSP (旅行商问题)

VSP (视觉搜索问题)

Sudoku (数独)

Accuracy (准确率)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

复杂任务解决

多模态系统开发

推理能力增强

远期愿景

自然语言理解与生成

智能系统的广泛应用

原文摘要

参考文献 (20)

相关论文

Visual-ERM: Reward Modeling for Visual Equivalence

Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问