UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

TL;DR

UniGRPO通过GRPO优化文本和图像生成策略，提升推理驱动的视觉生成质量。

cs.CV 🔴 高级 2026-03-25 132 次浏览

Jie Liu Zilyu Ye Linxiao Yuan Shenhan Zhu Yu Gao Jie Wu Kunchang Li Xionghui Wang Xiaonan Nie Weilin Huang Wanli Ouyang

统一模型强化学习视觉生成推理多模态

核心发现

方法论

本文提出了一种统一的强化学习框架UniGRPO，用于优化推理驱动的视觉生成。该框架将多模态生成过程建模为一个马尔可夫决策过程（MDP），并通过GRPO优化文本和图像生成策略。具体而言，采用标准GRPO进行推理优化，使用FlowGRPO进行视觉合成。为了实现多轮交互生成的可扩展性，本文对FlowGRPO进行了两项关键修改：去除无分类器引导和用MSE惩罚替代标准的潜在KL惩罚。

关键结果

实验结果表明，UniGRPO在推理驱动的图像生成中显著提升了生成质量。在TA基准测试中，UniGRPO得分为0.8381，而在GenEval基准测试中得分为0.90，均超过了现有的基线方法。
通过消除无分类器引导，UniGRPO在多轮和多条件生成场景中表现出更高的计算效率和稳定性。
在消融实验中，使用速度场上的MSE惩罚显著减少了奖励黑客行为，同时保持了生成性能。

研究意义

UniGRPO的提出为多模态生成模型的统一优化提供了一个强大的基线，特别是在推理驱动的视觉生成任务中。通过将文本和图像生成策略联合优化，UniGRPO不仅提升了生成质量，还为未来的全交错模型后训练提供了可扩展的框架。这项研究解决了多模态生成中长期存在的痛点，即如何有效地结合语言推理能力和高保真图像生成能力。

技术贡献

UniGRPO在技术上有几个显著贡献。首先，它将推理和视觉合成整合到一个统一的优化环路中，克服了现有方法在多模态生成中的分离优化问题。其次，通过去除无分类器引导和引入速度场上的MSE惩罚，UniGRPO在多轮交互生成中表现出更高的稳定性和计算效率。最后，它为未来的多模态生成研究提供了一个可扩展的框架。

新颖性

UniGRPO首次将推理驱动的图像生成建模为一个统一的MDP，并通过GRPO进行联合优化。与现有的多模态生成方法相比，UniGRPO在方法论上具有根本性的创新，特别是在如何有效地结合语言推理和视觉合成方面。

局限性

在某些复杂的多条件生成任务中，UniGRPO可能需要更高的计算资源来保持生成质量。
尽管去除了无分类器引导，但在某些场景下可能导致生成的文本与图像之间的对齐度下降。
当前的实验设置主要集中在单轮生成任务，尚未充分验证其在更复杂的多轮交互场景中的性能。

未来方向

未来的研究方向包括将UniGRPO应用于更复杂的多轮交互生成场景，如交互式图像编辑和视觉故事讲述。此外，引入过程奖励模型以提高RL训练的样本效率，并确保模型决策过程的可解释性也是一个重要的研究方向。

AI 总览摘要

在多模态生成领域，如何有效地结合语言推理能力和高保真图像生成能力一直是一个挑战。现有的方法往往在文本和图像生成之间存在分离优化的问题，难以实现真正的交错生成。为了解决这一问题，本文提出了一种统一的强化学习框架UniGRPO，用于优化推理驱动的视觉生成。

UniGRPO将多模态生成过程建模为一个马尔可夫决策过程（MDP），并通过GRPO优化文本和图像生成策略。具体而言，采用标准GRPO进行推理优化，使用FlowGRPO进行视觉合成。为了实现多轮交互生成的可扩展性，本文对FlowGRPO进行了两项关键修改：去除无分类器引导和用MSE惩罚替代标准的潜在KL惩罚。

实验结果表明，UniGRPO在推理驱动的图像生成中显著提升了生成质量。在TA基准测试中，UniGRPO得分为0.8381，而在GenEval基准测试中得分为0.90，均超过了现有的基线方法。通过消除无分类器引导，UniGRPO在多轮和多条件生成场景中表现出更高的计算效率和稳定性。

UniGRPO的提出为多模态生成模型的统一优化提供了一个强大的基线，特别是在推理驱动的视觉生成任务中。通过将文本和图像生成策略联合优化，UniGRPO不仅提升了生成质量，还为未来的全交错模型后训练提供了可扩展的框架。

尽管UniGRPO在实验中表现出色，但在某些复杂的多条件生成任务中，可能需要更高的计算资源来保持生成质量。此外，当前的实验设置主要集中在单轮生成任务，尚未充分验证其在更复杂的多轮交互场景中的性能。未来的研究方向包括将UniGRPO应用于更复杂的多轮交互生成场景，如交互式图像编辑和视觉故事讲述。

深度分析

研究背景

近年来，多模态生成模型的发展迅速，尤其是在文本和图像生成的交错生成方面。传统的生成模型，如自回归模型和扩散模型，通常在单一模态上表现出色，但在多模态生成中却面临挑战。随着大语言模型（LLM）在推理能力上的提升，研究者开始探索如何将其与高保真图像生成模型结合，以实现更复杂的生成任务。现有的研究大多集中在如何在生成过程中有效地利用推理能力，但在文本和图像生成之间的协同优化上仍存在不足。

核心问题

多模态生成中的核心问题在于如何有效地结合语言推理能力和高保真图像生成能力。现有的方法往往在文本和图像生成之间存在分离优化的问题，难以实现真正的交错生成。此外，随着生成任务的复杂性增加，如多轮交互和多条件生成，现有的方法在计算效率和生成质量上面临挑战。如何在保持生成质量的同时提高计算效率，是多模态生成领域亟待解决的问题。

核心创新

UniGRPO在方法论上有几个核心创新：

�� 将多模态生成过程建模为一个统一的马尔可夫决策过程（MDP），实现文本和图像生成策略的联合优化。
�� 通过去除无分类器引导和引入速度场上的MSE惩罚，提升了多轮交互生成的计算效率和稳定性。
�� 在推理驱动的图像生成中，首次实现了在统一框架下的高效优化，显著提升了生成质量。

方法详解

UniGRPO的方法详解如下：

�� 将多模态生成过程建模为一个马尔可夫决策过程（MDP），包括状态空间、动作空间、转移函数和奖励函数。
�� 采用标准GRPO进行文本生成的推理优化，具体步骤包括：输入用户提示，生成推理文本，计算奖励并更新策略。
�� 使用FlowGRPO进行图像生成的视觉合成，具体步骤包括：输入推理文本，生成图像，计算奖励并更新策略。
�� 为了实现多轮交互生成的可扩展性，去除无分类器引导，确保生成过程的线性展开。
�� 用MSE惩罚替代标准的潜在KL惩罚，提供更鲁棒的正则化信号，减少奖励黑客行为。

实验设计

实验设计包括以下几个方面：

�� 数据集：使用Bagel模型进行预训练，并在内部数据集上进行监督微调。
�� 基线：与ReFL、FPO、FlowGRPO、TextGRPO等方法进行对比。
�� 评价指标：采用TA和GenEval基准测试，评估文本对齐和复杂组合能力。
�� 超参数：设置合理的超参数以确保实验的公平性和可重复性。
�� 消融实验：通过去除无分类器引导和使用不同的正则化策略，验证方法的有效性。

结果分析

实验结果表明，UniGRPO在推理驱动的图像生成中显著提升了生成质量。在TA基准测试中，UniGRPO得分为0.8381，而在GenEval基准测试中得分为0.90，均超过了现有的基线方法。通过消除无分类器引导，UniGRPO在多轮和多条件生成场景中表现出更高的计算效率和稳定性。消融实验表明，使用速度场上的MSE惩罚显著减少了奖励黑客行为，同时保持了生成性能。

应用场景

UniGRPO的应用场景包括：

�� 交互式图像编辑：通过多轮交互生成，实现更复杂的图像编辑任务。
�� 视觉故事讲述：结合语言推理能力和图像生成能力，实现更具表现力的视觉故事。
�� 多轮对话生成：在多模态对话系统中，提升文本和图像生成的协同优化能力。

局限与展望

通俗解读非专业人士也能看懂

想象你在厨房里做饭。你有一个食谱（用户提示），需要根据这个食谱做出一道菜（生成图像）。在做菜之前，你需要先想清楚每个步骤（推理），比如需要哪些食材、如何搭配等等。然后，你开始动手做菜（图像合成）。在这个过程中，你需要不断调整味道（优化生成策略），确保最终的菜肴符合你的预期（生成质量）。UniGRPO就像一个聪明的厨师，它不仅能根据食谱做出美味的菜肴，还能在过程中不断优化每个步骤，确保最终的菜肴既美味又符合食谱的要求。通过去除不必要的步骤（无分类器引导），UniGRPO能更高效地完成整个烹饪过程，同时保证菜肴的质量和味道。

简单解释像给14岁少年讲一样

嘿，小伙伴！想象一下你在玩一个超级酷的游戏，这个游戏需要你同时控制两个角色，一个是语言大师，另一个是画图高手。语言大师负责想出各种有趣的故事情节，而画图高手则根据这些情节画出超赞的图画。为了赢得比赛，你需要让这两个角色完美配合，创造出既有趣又好看的作品！

这就是UniGRPO的工作原理！它就像游戏中的超级助手，帮助语言大师和画图高手更好地协作。它通过一种叫做“强化学习”的方法，让两个角色在游戏中不断提高技能，最终成为无敌组合！

在这个过程中，UniGRPO会不断调整策略，就像你在游戏中不断调整战术一样，确保每次都能获得高分。即使遇到困难的关卡，它也能通过聪明的策略找到最佳解决方案！

所以，UniGRPO就像你在游戏中的最佳拍档，帮助你在语言和图像的世界中大展身手，创造出令人惊叹的作品！

术语表

UniGRPO (统一策略优化)

UniGRPO是一种用于推理驱动的视觉生成的统一强化学习框架，通过联合优化文本和图像生成策略，提升生成质量。

在论文中，UniGRPO用于优化多模态生成过程。

GRPO (群相对策略优化)

GRPO是一种高效的策略优化方法，通过使用群相对基线消除价值模型，适用于推理密集型模型。

在UniGRPO中，GRPO用于推理优化。

FlowGRPO (流策略优化)

FlowGRPO是一种将策略梯度应用于流模型的方法，通过将生成过程重构为随机微分方程，实现视觉合成的优化。

在UniGRPO中，FlowGRPO用于图像生成的视觉合成。

MDP (马尔可夫决策过程)

MDP是一种用于建模决策过程的数学框架，包括状态空间、动作空间、转移函数和奖励函数。

UniGRPO将多模态生成过程建模为一个MDP。

MSE (均方误差)

MSE是一种用于衡量预测值与真实值之间差异的指标，通过计算误差的平方平均值来评估模型的性能。

在UniGRPO中，MSE用于替代标准的潜在KL惩罚。

无分类器引导

无分类器引导是一种标准的推理技术，通过去除分类器引导，确保生成过程的线性展开。

在UniGRPO中，去除无分类器引导以提高计算效率。

TA (文本对齐)

TA是一种用于评估文本生成模型对齐度的基准测试，衡量生成文本与输入提示之间的一致性。

在实验中，TA用于评估UniGRPO的文本生成质量。

GenEval

GenEval是一种用于评估文本到图像模型复杂组合能力的标准基准测试，包括对象计数、空间关系和属性绑定。

在实验中，GenEval用于评估UniGRPO的图像生成能力。

奖励黑客

奖励黑客是一种在优化过程中出现的问题，模型通过不正当手段获得高奖励，导致生成质量下降。

在UniGRPO中，通过MSE惩罚减少奖励黑客行为。

消融实验

消融实验是一种用于验证模型中各个组件重要性的实验方法，通过去除或替换某些组件，观察对模型性能的影响。

在实验中，消融实验用于验证UniGRPO的有效性。

开放问题这项研究留下的未解疑问

1 如何在多轮交互生成中保持上下文一致性？现有的方法在处理长时间跨度的交互生成时，往往难以保持上下文的一致性。未来的研究需要探索更有效的策略，以确保模型在多轮交互中能够持续跟踪和维护上下文。
2 如何提高RL训练的样本效率？当前的RL训练往往需要大量的样本才能达到满意的性能。引入过程奖励模型可能是一个解决方案，它能够在生成过程中提供更细粒度的反馈，从而提高样本效率。
3 如何在多条件生成中保持生成质量？多条件生成任务通常需要处理多个输入条件，如何在不增加计算复杂度的情况下保持生成质量是一个挑战。未来的研究需要探索更高效的策略，以在多条件生成中实现高质量的输出。
4 如何在推理过程中提高文本与图像的对齐度？尽管UniGRPO在推理驱动的图像生成中表现出色，但在某些场景下，文本与图像之间的对齐度可能下降。未来的研究需要探索更有效的策略，以提高推理过程中文本与图像的对齐度。
5 如何在不增加计算资源的情况下提升生成质量？当前的生成模型往往需要大量的计算资源来保持高质量的输出。未来的研究需要探索更高效的模型架构和优化策略，以在不增加计算资源的情况下提升生成质量。

应用场景

近期应用

交互式图像编辑

UniGRPO可以用于交互式图像编辑任务，通过多轮交互生成，实现更复杂的图像编辑。用户可以通过文本提示与模型交互，实时调整图像内容。

视觉故事讲述

结合语言推理能力和图像生成能力，UniGRPO可以用于视觉故事讲述，生成更具表现力的视觉内容。适用于广告、教育等领域。

多模态对话系统

在多模态对话系统中，UniGRPO可以提升文本和图像生成的协同优化能力，实现更自然的人机交互体验。

远期愿景

智能创作助手

UniGRPO可以成为智能创作助手，帮助用户在创作过程中提供灵感和建议，生成高质量的文本和图像内容。

自动化内容生成

在广告、媒体等行业，UniGRPO可以用于自动化内容生成，提高生产效率，减少人工干预。

原文摘要

Unified models capable of interleaved generation have emerged as a promising paradigm, with the community increasingly converging on autoregressive modeling for text and flow matching for image generation. To advance this direction, we propose a unified reinforcement learning framework tailored for interleaved generation. We validate our approach on its fundamental unit: a single round of reasoning-driven image generation, where the model first expands the user prompt through reasoning, followed by image synthesis. Formulating this multimodal generation process as a Markov Decision Process with sparse terminal rewards, we introduce UniGRPO to jointly optimize text and image generation policies using GRPO. Adopting a minimalist methodology to avoid over-design, we leverage established training recipes for both modalities by seamlessly integrating standard GRPO for reasoning and FlowGRPO for visual synthesis. To ensure scalability to multi-round interleaved generation, we introduce two critical modifications to the original FlowGRPO: (1) eliminating classifier-free guidance to maintain linear, unbranched rollouts, which is essential for scaling to complex scenarios involving multi-turn interactions and multi-condition generation (e.g., editing); and (2) replacing the standard latent KL penalty with an MSE penalty directly on the velocity fields, providing a more robust and direct regularization signal to mitigate reward hacking effectively. Our experiments demonstrate that this unified training recipe significantly enhances image generation quality through reasoning, providing a robust and scalable baseline for the future post-training of fully interleaved models.

cs.CV

参考文献 (20)

Emerging Properties in Unified Multimodal Pretraining

Chaorui Deng, Deyao Zhu, Kunchang Li 等

2025 465 引用 ⭐ 高影响力查看解读 →

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

Kaiwen Zheng, Huayu Chen, Haotian Ye 等

2025 48 引用查看解读 →

Proximal Policy Optimization Algorithms

John Schulman, Filip Wolski, Prafulla Dhariwal 等

2017 26037 引用查看解读 →

RewardDance: Reward Scaling in Visual Generation

Jie Wu, Yu Gao, Zi-Nuo Ye 等

2025 31 引用查看解读 →

Training Diffusion Models with Reinforcement Learning

Kevin Black, Michael Janner, Yilun Du 等

2023 761 引用查看解读 →

Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization

Jiajun Fan, Shuaike Shen, Chaoran Cheng 等

2025 26 引用查看解读 →

OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization

Jiacheng Zhang, Jie Wu, Weifeng Chen 等

2024 34 引用查看解读 →

Directly Fine-Tuning Diffusion Models on Differentiable Rewards

Kevin Clark, Paul Vicol, Kevin Swersky 等

2023 357 引用查看解读 →

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

Xinjie Zhang, Jintao Guo, Shanshan Zhao 等

2025 42 引用查看解读 →

Training Diffusion Models Towards Diverse Image Generation with Reinforcement Learning

Zichen Miao, Jiang Wang, Ze Wang 等

2024 56 引用

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Jinheng Xie, Weijia Mao, Zechen Bai 等

2024 553 引用查看解读 →

Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning

Xue Bin Peng, Aviral Kumar, Grace Zhang 等

2019 760 引用查看解读 →

Language Models are Unsupervised Multitask Learners

Alec Radford, Jeff Wu, R. Child 等

2019 27794 引用

VideoDPO: Omni-Preference Alignment for Video Diffusion Generation

Runtao Liu, Haoyu Wu, Ziqiang Zheng 等

2024 84 引用查看解读 →

GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment

Dhruba Ghosh, H. Hajishirzi, Ludwig Schmidt

2023 664 引用查看解读 →

Smart-GRPO: Smartly Sampling Noise for Efficient RL of Flow-Matching Models

Benjamin Yu, Jackie Liu, Justin Cui

2025 6 引用查看解读 →

Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models

Shuchen Xue, Chongjian Ge, Shilong Zhang 等

2025 13 引用查看解读 →

TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

Xiaoxuan He, Siming Fu, Yuke Zhao 等

2025 45 引用查看解读 →

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

Haoyou Deng, Keyu Yan, Chaojie Mao 等

2026 6 引用查看解读 →

Intern VL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Zhe Chen, Jiannan Wu, Wenhai Wang 等

2023 2528 引用查看解读 →

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

UniGRPO (统一策略优化)

GRPO (群相对策略优化)

FlowGRPO (流策略优化)

MDP (马尔可夫决策过程)

MSE (均方误差)

无分类器引导

TA (文本对齐)

GenEval

奖励黑客

消融实验

开放问题 这项研究留下的未解疑问

应用场景

近期应用

交互式图像编辑

视觉故事讲述

多模态对话系统

远期愿景

智能创作助手

自动化内容生成

原文摘要

参考文献 (20)

相关论文

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

SS3D: End2End Self-Supervised 3D from Web Videos

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问