InterleaveThinker: Reinforcing Agentic Interleaved Generation

TL;DR

InterleaveThinker通过多智能体框架实现图像生成的交错序列，利用规划器和批评者提升长序列生成质量。

cs.CV 🔴 高级 2026-06-12 72 次浏览

Dian Zheng Harry Lee Manyuan Zhang Kaituo Feng Zoey Guo Ray Zhang Hongsheng Li

多模态生成多智能体系统强化学习图像-文本交互长序列生成

核心发现

方法论

本文提出的InterleaveThinker采用三大核心模块：规划器（Planner）、生成器（Generator）和批评者（Critic）。规划器负责分析输入的文本-图像序列，提前生成全局的指令序列，避免中间视觉状态的过度依赖。生成器根据细化的提示逐步生成图像，批评者则在每一步评估生成结果，识别偏离指令的样本，并优化提示以实现修正。训练过程中，作者构建了三套高质量数据集：Interleave-Planner-SFT-80k、Interleave-Critic-SFT-112k和Interleave-Critic-RL-13k，采用SFT和强化学习（GRPO）优化批评者的逐步修正能力。为了应对长序列中高昂的计算成本，提出了基于准确奖励和逐步奖励的单步强化学习策略，有效引导整个生成轨迹的优化。该框架能兼容多种现有图像生成模型（如FLUX.2-klein），在多项交错生成任务中表现优异，显著优于传统模型，达到Nano Banana和GPT-5的性能水平。

关键结果

在多模态交错生成基准测试中，InterleaveThinker显著优于现有开源统一多模态模型（UMMs），在4步FLUX.2-klein上WISE指标由0.47提升至0.73，RISE由13.3跃升至28.9，表现出在复杂推理任务中的强大能力。
在长序列生成中，采用单步强化学习策略，减少了计算成本，同时提升了整体生成质量。对多个图像生成模型的适应性验证显示，性能提升普遍达10%以上，尤其在推理和复杂场景中表现突出。
除了交错生成，框架还显著改善了基础模型在推理任务中的表现，例如在4步FLUX.2-klein上，WISE得分从0.47提升至0.73，RISE从13.3提升至28.9，验证了其在多任务、多场景中的泛化能力。

研究意义

该研究突破了现有图像生成模型在长序列交错任务中的瓶颈，提出多智能体协作机制，有效解决视觉过度依赖和逐步误差累积问题。通过引入规划器和批评者，模型实现了全局任务规划与局部修正的结合，极大提升了多模态交互的连续性和准确性。这不仅丰富了多模态生成的理论体系，也为实际应用中的视觉叙事、指导和机器人操控等场景提供了技术支撑。尤其在长序列、多步骤任务中，显著降低了误差传播风险，为未来多模态系统的自主性和鲁棒性奠定了基础。

技术贡献

本文的核心技术创新在于引入多智能体架构，将规划器、生成器和批评者有机结合，形成闭环优化流程。规划器通过预先生成全局指令，避免中间状态的视觉依赖，批评者则在每一步进行细粒度评估和提示优化，提升整体一致性。采用基于GRPO的单步强化学习策略，有效解决长序列优化中的计算成本问题。数据方面，构建了多场景、多任务的高质量训练集，结合筛选和分割策略，确保训练的有效性和泛化能力。这一体系不仅适用于多种图像生成模型，还在推理和复杂场景中展现出优越性能，推动多模态交互技术向更高水平发展。

新颖性

这是首个将多智能体架构应用于图像-文本交错生成任务的研究，突破了传统单一模型在长序列任务中的局限。通过规划器提前生成全局指令，避免了视觉状态的过度依赖；批评者在每一步进行细粒度评估和修正，显著减少误差累积。这种设计区别于现有的UMMs和DuoGen等方法，提供了全新的长序列优化思路。采用双重奖励机制的单步强化学习策略，极大降低了训练成本，同时保证了轨迹的整体一致性。整体框架的通用性和高效性，标志着多模态生成领域迈入多智能体协作的新阶段。

局限性

尽管框架在多模型、多场景中表现优异，但在极端复杂或超长序列（超过50步）任务中仍存在计算成本上升和误差累积的风险，未来需优化模型效率和修正机制。
训练数据的依赖较大，数据采集和筛选过程复杂，可能限制模型在未覆盖场景中的泛化能力，尤其是在特定专业领域或少样本任务中表现尚待验证。
当前方法对硬件资源要求较高，尤其在大规模强化学习阶段，限制了其在资源有限环境中的应用推广。未来需探索更高效的训练策略和模型压缩技术。

未来方向

未来将进一步优化多智能体交互机制，提升长序列任务中的效率和鲁棒性。探索多模态数据的多样性与复杂性，增强模型在实际场景中的适应能力。此外，结合自监督学习和迁移学习，减少对大量标注数据的依赖，推动模型在专业领域的应用落地。还将研究多智能体系统的可解释性和安全性，确保其在自动化决策和人机交互中的可靠性。最终目标是实现具有自主规划、连续修正和多模态理解能力的通用智能系统，为未来智能机器人、虚拟助手等提供坚实技术基础。

AI 总览摘要

随着人工智能技术的不断发展，图像生成模型在视觉内容创作、虚拟现实和机器人操控等领域展现出巨大潜力。然而，现有模型多偏重于单一图像的生成与编辑，难以实现复杂的多步骤、多模态交错任务。这一限制严重制约了其在视觉叙事、引导和实体操控等应用中的实际效果。为解决这一瓶颈，本文提出了InterleaveThinker，一种基于多智能体协作的长序列交错生成框架。

该框架由三个核心模块组成：规划器（Planner）、生成器（Generator）和批评者（Critic）。规划器在任务开始前，分析输入的文本-图像序列，提前生成全局的指令序列，避免中间状态的视觉依赖问题。生成器根据细化的提示逐步生成图像，确保每一步的输出符合整体目标。批评者在每一步评估生成结果，识别偏离指令的样本，并优化提示以实现修正。这种设计有效缓解了传统模型在长序列任务中的视觉过度依赖和逐步误差累积问题。

为了训练和验证该系统，作者构建了三套高质量数据集：Interleave-Planner-SFT-80k、Interleave-Critic-SFT-112k和Interleave-Critic-RL-13k，采用监督微调（SFT）和强化学习（GRPO）策略，提升批评者的逐步修正能力。特别是在长序列任务中，采用基于准确奖励和逐步奖励的单步强化学习，有效降低了计算成本，同时确保轨迹的整体一致性。

实验结果显示，InterleaveThinker在多项交错生成基准测试中优于现有开源模型，性能接近Nano Banana和GPT-5。在4步FLUX.2-klein任务中，WISE指标由0.47提升至0.73，RISE由13.3跃升至28.9，验证了其在复杂推理和多场景中的优越性。这一技术突破不仅推动了多模态生成的理论发展，也为实际应用中的视觉叙事、机器人操控等提供了坚实基础。未来，作者计划进一步优化多智能体交互机制，扩展模型在更复杂场景中的能力，推动多模态系统向更高水平迈进。

深度分析

研究背景

近年来，深度学习推动图像生成技术快速发展，代表性模型如Diffusion和Autoregressive架构极大提升了图像的逼真度和指令遵循能力。OpenAI的DALLE-2、Stable Diffusion等模型在单图像生成和编辑任务中取得突破，但受限于架构设计，难以实现多步骤、多模态交错任务。随着多模态模型（如CLIP、Florence）和统一多模态模型（UMMs）的出现，支持文本与图像的交互变得可能，但在长序列生成中仍面临视觉过度依赖和误差累积的挑战。现有方法如DuoGen尝试结合视频生成，改善连续性，但缺乏通用性和可扩展性。整体而言，长序列、多步骤的交错生成仍是AI研究中的难点，亟需创新架构和训练策略。

核心问题

当前图像生成模型在多步骤交错任务中的表现有限，主要问题包括：1）视觉过度依赖：模型在生成过程中过度依赖中间视觉状态，导致偏离全局目标；2）逐步误差累积：小的偏差在多步骤中不断放大，最终影响整体效果。这些问题限制了模型在复杂场景中的应用，如视觉叙事、机器人指导等。解决方案需要在保证局部准确性的同时，提升整体一致性和鲁棒性，尤其在长序列任务中尤为重要。传统方法多采用逐步微调或后处理修正，但效果有限，难以应对复杂、多变的场景需求。

核心创新

本文的核心创新在于引入多智能体架构，将任务拆分为规划、生成和评估三个环节：1）规划器提前生成全局指令，避免中间状态的视觉过度依赖；2）生成器根据细化提示逐步生成图像，确保局部质量；3）批评者在每一步评估输出，识别偏差并优化提示，实现动态修正。这一设计区别于传统单一模型，提供了全局规划与局部修正的结合方式。采用GRPO的单步强化学习策略，有效降低长序列优化的计算成本，确保轨迹整体一致性。数据方面，构建多场景、多任务的高质量训练集，结合筛选和分割策略，提升模型泛化能力。这一体系突破了视觉过度依赖和误差累积的瓶颈，推动多模态交互向更高水平发展。

方法详解

�� 任务分析：输入文本-图像序列，规划器分析后提前生成全局指令（Instruction），包括每一步的操作（ui）、提示（pi）和补充信息（ai）；
�� 指令生成：利用Qwen-VL-8B-Instruct等模型进行微调，确保规划器能生成符合任务需求的全局指令集；
�� 图像生成：在每一步，根据细化提示（rt_i）和前一帧图像（Ii-1），由图像生成模型（如FLUX.2-klein）逐步生成新图像（It_i）；
�� 评估与修正：批评者（Critic）在每一步评估生成图像与指令的一致性，输出偏差判断（jt_i）和修正提示（rt+1_i），指导下一轮生成；
�� 训练策略：采用监督微调（SFT）和基于GRPO的单步强化学习，优化批评者的修正能力，确保轨迹整体一致性；
�� 数据构建：通过合成、筛选和分割多场景、多任务数据，确保训练集多样性和质量，提升模型泛化能力。

实验设计

实验采用多场景、多任务数据集，涵盖embodied manipulation、艺术、故事叙述等。对比基线包括单一模型和UMMs，评估指标包括WISE、RISE等长序列推理指标。在不同模型（如FLUX.2-klein、Qwen-image-Edit）上进行测试，验证框架的适应性和性能提升。通过消融实验分析规划器、批评者和强化学习策略的贡献。实验还包括长序列任务的复杂性分析，验证单步强化学习在降低成本和提升效果方面的优势。

结果分析

�� 在4步FLUX.2-klein任务中，WISE指标由0.47提升至0.73，RISE由13.3跃升至28.9，显示出在复杂推理中的优越性；
�� 多模型验证显示，性能提升普遍在10%以上，尤其在连续推理和多步骤场景中效果显著；
�� 采用单步强化学习策略，显著降低训练成本（节省约50%的计算资源），同时保持甚至提升整体性能；
�� 数据集的多样性和筛选策略保证了模型在未见场景中的泛化能力，验证了方法的普适性。

应用场景

�� 视觉叙事：自动生成多步骤故事情节，提高虚拟角色的交互能力；
�� 机器人操控：实现复杂指令的连续执行，提升自主机器人在家庭和工业环境中的表现；
�� 教育培训：辅助教学场景中的多步骤演示和指导，增强学习体验；
�� 影视制作：自动化生成连续场景，节省后期制作时间。未来还可结合虚拟现实，打造沉浸式交互体验。

局限与展望

�� 计算成本较高，尤其在长序列（超过50步）任务中，模型训练和推理的资源需求仍然较大；
�� 依赖高质量训练数据，数据采集和筛选过程繁琐，可能限制模型在特定专业领域的泛化能力；
�� 当前方法对极端复杂场景的适应性有限，未来需优化模型的鲁棒性和效率，探索更智能的修正机制。

通俗解读非专业人士也能看懂

想象你在做一份复杂的菜谱，需要一步步准备食材、烹饪、装盘。传统的厨师（模型）可能只会专注于每个步骤，容易在中途迷失或犯错。而InterleaveThinker就像一个聪明的厨房助手，它提前规划好所有步骤，确保每个环节都按照大计划进行。厨房助手还会在每一步检查菜肴，发现偏差就及时提醒你调整。这样，整个烹饪过程变得有条不紊，不会因为某个小错误而影响最终的美味。这个系统让复杂的菜谱变得像做家常菜一样简单，既有全局把控，又能逐步修正偏差，确保每次都做出完美的菜肴。

简单解释像给14岁少年讲一样

你可以把这个技术想象成一个超级聪明的老师，教你完成一项很难的任务，比如拼装一个复杂的模型。普通老师可能只告诉你一步步怎么做，但如果你走错了，可能就会迷路或者拼错。这个新老师不但会提前帮你规划好整个拼装的步骤，还会在你拼的时候不断检查，发现哪里不对就告诉你怎么修正。这样，你就能按照计划一步步完成任务，而且每次都能修正错误，不会偏离目标。它就像一个有耐心、懂得提前安排和随时指导的好伙伴，让你轻松搞定复杂的事情。

原文摘要

Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual narratives, guidance, and embodied manipulation. Even the latest open-source Unified Multimodal Models (UMMs) exhibit limited performance in this regard. In this paper, we introduce InterleaveThinker, the first multi-agent pipeline designed to endow any existing image generator with interleaved generation capabilities. Specifically, we employ a planner agent to organize the image-text input sequence, instructing the image generator on the required execution at each step. Subsequently, we introduce a critic agent to evaluate the generator's outputs, identify samples that deviate from the planned instructions, and refine the instructions for regeneration. To implement this pipeline, we construct the Interleave-Planner-SFT-80k and Interleave-Critic-SFT-112k to perform a format cold-start. Then we develop Interleave-Critic-RL-13k to reinforce the step-wise instruction correction capability within a generation trajectory using GRPO. Since a single interleaved generation trajectory may involve over 25 generator calls, optimizing the entire trajectory is computationally impractical. Therefore, we propose accuracy reward and step-wise reward, allowing single-step RL to effectively guide the entire generation trajectory. The results show that InterleaveThinker improves performance across various image generators. On interleaved generation benchmarks, it achieves performance comparable to Nano Banana and GPT-5. Surprisingly, it also significantly enhances the base model on reasoning-based benchmarks; for example, on 4-step FLUX.2-klein, we observe substantial gains on WISE and RISE.

cs.CV

参考文献 (20)

VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation

Max W.F. Ku, Dongfu Jiang, Cong Wei 等

2023 177 引用 ⭐ 高影响力查看解读 →

Qwen-Image Technical Report

Chenfei Wu, Jiahao Li, Jingren Zhou 等

2025 724 引用 ⭐ 高影响力查看解读 →

Emu3.5: Native Multimodal Models are World Learners

Yufeng Cui, Honghao Chen, Haoge Deng 等

2025 88 引用查看解读 →

Idea2Img: Iterative Self-refinement with GPT-4V for Automatic Image Design and Generation

Zhengyuan Yang, Jianfeng Wang, Linjie Li 等

2024 18 引用

CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation

Wei Chen, Lin Li, Yong-Feng Yang 等

2024 16 引用查看解读 →

MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens

Kaizhi Zheng, Xuehai He, Xin Eric Wang

2023 132 引用

AUTO-ENCODING VARIATIONAL BAYES

Romain Lopez, Pierre Boyeau, N. Yosef 等

2020 23726 引用

Adding Conditional Control to Text-to-Image Diffusion Models

Lvmin Zhang, Anyi Rao, Maneesh Agrawala

2023 7072 引用查看解读 →

Qwen2.5-VL Technical Report

Shuai Bai, Ke-qin Chen, Xuejing Liu 等

2025 4890 引用查看解读 →

Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection

Shufan Li, Konstantinos Kallidromitis, Akash Gokul 等

2025 39 引用查看解读 →

SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

Dustin Podell, Zion English, Kyle Lacey 等

2023 4854 引用查看解读 →

From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

Le Zhuo, Liangbing Zhao, Sayak Paul 等

2025 58 引用查看解读 →

Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Xiangyu Zhao, Peiyuan Zhang, Kexian Tang 等

2025 72 引用查看解读 →

FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space

Black Forest Labs, Stephen Batifol, A. Blattmann 等

2025 783 引用查看解读 →

GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing

Zhenyu Wang, Aoxue Li, Zhenguo Li 等

2024 131 引用查看解读 →

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

Z-Image Team, Huanqia Cai, Sihan Cao 等

2025 156 引用查看解读 →

HunyuanImage 3.0 Technical Report

Siyu Cao, Hangting Chen, Peng Chen 等

2025 99 引用查看解读 →

Denoising Diffusion Probabilistic Models

Jonathan Ho, Ajay Jain, P. Abbeel

2020 31639 引用查看解读 →

Making LLaMA SEE and Draw with SEED Tokenizer

Yuying Ge, Sijie Zhao, Ziyun Zeng 等

2023 210 引用查看解读 →

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Wenxuan Huang, Yu Zeng, Qiuchen Wang 等

2026 19 引用查看解读 →

InterleaveThinker: Reinforcing Agentic Interleaved Generation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样