Visual-ERM: Reward Modeling for Visual Equivalence

TL;DR

Visual-ERM通过细粒度视觉奖励提升视觉到代码任务性能,显著超越现有模型。

cs.CV 🔴 高级 2026-03-14 1 次浏览
Ziyu Liu Shengyuan Ding Xinyu Fang Xuanlang Dai Penghui Yang Jianze Liang Jiaqi Wang Kai Chen Dahua Lin Yuhang Zang
视觉到代码 奖励建模 多模态 强化学习 视觉等价性

核心发现

方法论

Visual-ERM是一种多模态生成奖励模型,能够在渲染的视觉空间中直接评估视觉到代码的质量。它结合了全局结构和局部视觉细节的建模,提供细粒度、可解释且与任务无关的反馈。该模型通过反映和修正进一步增强了测试时的扩展能力。Visual-ERM在RL中集成后,显著提升了Qwen3-VL-8B-Instruct在图表到代码任务中的表现,并在表格和SVG解析任务中取得了一致的提升。

关键结果

  • Visual-ERM在图表到代码任务中将Qwen3-VL-8B-Instruct的表现提升了8.4分,相比于基于DINO的奖励,提供了更精确的视觉细节评估。
  • 在表格和SVG解析任务中,Visual-ERM分别提升了2.7分和4.1分,展示了其在多种视觉到代码任务中的广泛适用性。
  • 在VisualCritic-RewardBench基准测试中,Visual-ERM在8B参数规模下显著超越了Qwen3-VL-235B-Instruct,并接近领先的闭源模型。

研究意义

Visual-ERM的提出解决了现有视觉到代码任务中奖励信号不对齐的问题。通过在视觉空间中直接进行细粒度的评估,该模型避免了文本规则或粗粒度视觉嵌入相似性带来的漏洞,提供了更可靠的奖励信号。这一进步不仅在学术界具有重要意义,也为工业界的视觉到代码应用提供了更强的技术支持。

技术贡献

Visual-ERM在技术上提供了一个全新的奖励建模框架,与现有的基于文本或视觉编码器相似性的奖励方法相比,具有根本性的不同。它通过多模态生成模型实现了对视觉细节的细粒度感知,并在视觉到代码任务中提供了更高保真度的监督信号。这种方法不仅提升了模型的解析能力,还为未来的视觉到代码任务提供了新的工程可能性。

新颖性

Visual-ERM是首个在视觉空间中提供细粒度奖励信号的模型。与现有方法相比,其创新之处在于能够在多模态空间中同时感知视觉细节和嵌入文本,超越了传统的语义相似性评估。

局限性

  • Visual-ERM在处理复杂的视觉结构时可能会遇到性能瓶颈,特别是在高分辨率图像的解析中。
  • 该模型对训练数据的依赖较大,可能需要大量的标注数据来实现其潜力。
  • 在某些特定任务中,Visual-ERM的泛化能力可能受到限制。

未来方向

未来的研究可以探索Visual-ERM在更多视觉到代码任务中的应用,特别是那些涉及复杂视觉结构的任务。此外,进一步优化模型的计算效率和泛化能力也是重要的研究方向。

AI 总览摘要

视觉到代码任务要求模型将结构化的视觉输入(如图表、表格和SVG)重构为可执行或结构化的表示,并保持高视觉保真度。尽管最近的大型视觉语言模型(LVLMs)通过监督微调取得了显著的成果,但由于奖励信号不对齐,强化学习仍然面临挑战。现有的奖励要么依赖于文本规则,要么依赖于粗粒度的视觉嵌入相似性,这两者都无法捕捉细粒度的视觉差异,并容易受到奖励黑客攻击。我们提出了视觉等价奖励模型(Visual-ERM),这是一种多模态生成奖励模型,能够在渲染的视觉空间中直接评估视觉到代码的质量。通过在RL中集成,Visual-ERM显著提升了Qwen3-VL-8B-Instruct在图表到代码任务中的表现,并在表格和SVG解析任务中取得了一致的提升。此外,该模型通过反映和修正进一步增强了测试时的扩展能力。

我们还引入了VisualCritic-RewardBench(VC-RewardBench),这是一个用于评估结构化视觉数据中细粒度图像到图像差异的基准测试,其中Visual-ERM在8B参数规模下显著超越了Qwen3-VL-235B-Instruct,并接近领先的闭源模型。我们的结果表明,细粒度的视觉奖励监督对于视觉到代码的RL既是必要的,也是充分的,无论任务的特异性如何。

Visual-ERM的提出解决了现有视觉到代码任务中奖励信号不对齐的问题。通过在视觉空间中直接进行细粒度的评估,该模型避免了文本规则或粗粒度视觉嵌入相似性带来的漏洞,提供了更可靠的奖励信号。这一进步不仅在学术界具有重要意义,也为工业界的视觉到代码应用提供了更强的技术支持。

在技术上,Visual-ERM提供了一个全新的奖励建模框架,与现有的基于文本或视觉编码器相似性的奖励方法相比,具有根本性的不同。它通过多模态生成模型实现了对视觉细节的细粒度感知,并在视觉到代码任务中提供了更高保真度的监督信号。这种方法不仅提升了模型的解析能力,还为未来的视觉到代码任务提供了新的工程可能性。

然而,Visual-ERM在处理复杂的视觉结构时可能会遇到性能瓶颈,特别是在高分辨率图像的解析中。此外,该模型对训练数据的依赖较大,可能需要大量的标注数据来实现其潜力。在某些特定任务中,Visual-ERM的泛化能力可能受到限制。未来的研究可以探索Visual-ERM在更多视觉到代码任务中的应用,特别是那些涉及复杂视觉结构的任务。此外,进一步优化模型的计算效率和泛化能力也是重要的研究方向。

深度分析

研究背景

近年来,随着计算机视觉和自然语言处理技术的进步,视觉到代码任务逐渐成为一个重要的研究领域。该任务的目标是将结构化的视觉输入(如图表、表格和SVG)转换为可执行或结构化的表示形式,如代码或标记语言。传统的方法主要依赖于监督微调,这需要大量的标注数据,并且在跨领域泛化能力上存在不足。近年来,强化学习被认为是一种有前途的替代方案,但由于奖励信号的不对齐,仍然面临挑战。现有的奖励方法要么依赖于文本规则,要么依赖于粗粒度的视觉嵌入相似性,这两者都无法捕捉细粒度的视觉差异,并容易受到奖励黑客攻击。

核心问题

视觉到代码任务的核心问题在于如何有效地评估模型生成的代码与原始视觉输入之间的相似性。现有的方法主要依赖于文本规则或粗粒度的视觉嵌入相似性,这两者都无法捕捉细粒度的视觉差异,并容易受到奖励黑客攻击。这导致模型在训练过程中可能会优化错误的目标,从而影响最终的性能。因此,开发一种能够在视觉空间中直接进行细粒度评估的奖励模型是解决这一问题的关键。

核心创新

Visual-ERM的核心创新在于其多模态生成奖励模型的设计。首先,该模型能够在渲染的视觉空间中直接评估视觉到代码的质量,避免了文本规则或粗粒度视觉嵌入相似性带来的漏洞。其次,Visual-ERM结合了全局结构和局部视觉细节的建模,提供细粒度、可解释且与任务无关的反馈。这种方法不仅提升了模型的解析能力,还为未来的视觉到代码任务提供了新的工程可能性。最后,Visual-ERM通过反映和修正进一步增强了测试时的扩展能力。

方法详解

Visual-ERM的实现包括以下几个关键步骤:


  • �� 奖励数据生成:通过控制腐败和注释生成奖励数据。

  • �� 奖励模型的监督微调:对生成的奖励数据进行监督微调。

  • �� 在RL中集成:将Visual-ERM集成到RL管道中,提升模型的解析能力。

  • �� 反映和修正:通过反映和修正进一步增强测试时的扩展能力。

实验设计

实验设计包括多个视觉到代码任务的数据集,如ChartMimic、OmniDocBench和UniSVG。我们采用Qwen3-VL-8B-Instruct作为策略模型的基础,并使用GRPO作为RL算法。实验中,我们比较了Visual-ERM与基于DINO的奖励方法的性能差异,重点考察了模型在细粒度视觉差异评估中的表现。

结果分析

实验结果表明,Visual-ERM在多个视觉到代码任务中均取得了显著的性能提升。在图表到代码任务中,Visual-ERM将Qwen3-VL-8B-Instruct的表现提升了8.4分。在表格和SVG解析任务中,Visual-ERM分别提升了2.7分和4.1分。此外,在VisualCritic-RewardBench基准测试中,Visual-ERM在8B参数规模下显著超越了Qwen3-VL-235B-Instruct,并接近领先的闭源模型。

应用场景

Visual-ERM的应用场景包括但不限于:


  • �� 人工智能辅助的前端开发:将UI设计转换为代码。

  • �� 科学论文解析:自动提取和解析论文中的图表和数据。

  • �� 知识管理和系统集成:通过视觉到代码的转换,提升信息的可访问性和可用性。

局限与展望

尽管Visual-ERM在多个任务中表现出色,但其在处理复杂视觉结构时可能会遇到性能瓶颈。此外,该模型对训练数据的依赖较大,可能需要大量的标注数据来实现其潜力。在某些特定任务中,Visual-ERM的泛化能力可能受到限制。未来的研究可以探索Visual-ERM在更多视觉到代码任务中的应用,特别是那些涉及复杂视觉结构的任务。此外,进一步优化模型的计算效率和泛化能力也是重要的研究方向。

通俗解读 非专业人士也能看懂

想象一下,你在厨房里做饭。你有一个食谱(视觉输入),需要把它变成一顿美味的晚餐(代码输出)。传统的方法就像是跟着食谱一步步来,但有时候你可能会漏掉一些细节,比如盐的用量或者火候的控制,这就像是现有的奖励方法无法捕捉细粒度的视觉差异。而Visual-ERM就像是一个经验丰富的大厨,他不仅能看到食谱上的指示,还能通过观察食材的颜色和味道来调整烹饪过程,确保每一道菜都完美无缺。这种方法不仅让你的晚餐更加美味,还能让你在未来的烹饪中更加得心应手。

简单解释 像给14岁少年讲一样

嘿,小伙伴!你有没有想过,电脑是怎么把图片变成代码的?就像你在玩游戏时,把角色的动作变成指令一样。现在,有一种叫Visual-ERM的新方法,它就像是游戏中的超级教练,能帮电脑更好地理解图片里的细节。以前的教练可能只会看大概的动作,但Visual-ERM能看到每一个小动作,就像你在游戏中注意到每一个敌人的动向一样。这样一来,电脑就能更准确地把图片变成代码,就像你在游戏中更准确地击败敌人一样!是不是很酷?

术语表

Visual-ERM (视觉等价奖励模型)

一种多模态生成奖励模型,能够在渲染的视觉空间中直接评估视觉到代码的质量。

用于在视觉到代码任务中提供细粒度的奖励信号。

LVLMs (大型视觉语言模型)

一种结合视觉和语言理解的大规模模型,能够处理多模态输入。

用于视觉到代码任务的基础模型。

RL (强化学习)

一种机器学习方法,通过奖励信号引导模型学习策略。

用于训练视觉到代码模型的方法。

Qwen3-VL-8B-Instruct

一种用于视觉到代码任务的策略模型,作为Visual-ERM的基础模型之一。

在实验中用于评估Visual-ERM的性能。

VisualCritic-RewardBench

一个用于评估结构化视觉数据中细粒度图像到图像差异的基准测试。

用于验证Visual-ERM的细粒度评估能力。

DINO (自监督视觉模型)

一种基于视觉编码器的奖励方法,用于评估视觉相似性。

作为Visual-ERM的对比基准。

ChartMimic

一个用于图表到代码任务的数据集。

在实验中用于评估Visual-ERM的性能。

OmniDocBench

一个用于表格到标记语言任务的数据集。

在实验中用于评估Visual-ERM的性能。

UniSVG

一个用于SVG到代码任务的数据集。

在实验中用于评估Visual-ERM的性能。

GRPO (基于梯度的策略优化)

一种用于强化学习的优化算法。

用于训练视觉到代码模型的算法。

开放问题 这项研究留下的未解疑问

  • 1 如何在不增加计算复杂度的情况下提升Visual-ERM对高分辨率图像的解析能力?现有方法在处理复杂视觉结构时可能会遇到性能瓶颈,需要进一步研究优化策略。
  • 2 Visual-ERM对训练数据的依赖较大,如何在数据稀缺的情况下保持其性能?这需要探索更高效的数据增强和迁移学习方法。
  • 3 在某些特定任务中,Visual-ERM的泛化能力可能受到限制,如何提升其跨领域的适应性?这需要研究更具鲁棒性的模型架构。
  • 4 如何进一步优化Visual-ERM的计算效率,降低其在实际应用中的资源消耗?这需要在模型压缩和加速技术上取得突破。
  • 5 Visual-ERM在多模态生成模型中的应用潜力如何?这需要探索其在其他多模态任务中的适用性和性能。

应用场景

近期应用

前端开发

Visual-ERM可以用于将UI设计自动转换为代码,提升开发效率。

科学论文解析

通过自动提取和解析论文中的图表和数据,Visual-ERM可以加速科学研究的进展。

知识管理

通过视觉到代码的转换,Visual-ERM可以提升信息的可访问性和可用性,助力知识管理和系统集成。

远期愿景

智能设计工具

Visual-ERM有潜力成为智能设计工具的核心组件,自动生成符合设计规范的代码。

自动化数据分析

通过将复杂的视觉数据转换为结构化信息,Visual-ERM可以推动自动化数据分析的发展。

原文摘要

Vision-to-code tasks require models to reconstruct structured visual inputs, such as charts, tables, and SVGs, into executable or structured representations with high visual fidelity. While recent Large Vision Language Models (LVLMs) achieve strong results via supervised fine-tuning, reinforcement learning remains challenging due to misaligned reward signals. Existing rewards either rely on textual rules or coarse visual embedding similarity, both of which fail to capture fine-grained visual discrepancies and are vulnerable to reward hacking. We propose Visual Equivalence Reward Model (Visual-ERM), a multimodal generative reward model that provides fine-grained, interpretable, and task-agnostic feedback to evaluate vision-to-code quality directly in the rendered visual space. Integrated into RL, Visual-ERM improves Qwen3-VL-8B-Instruct by +8.4 on chart-to-code and yields consistent gains on table and SVG parsing (+2.7, +4.1 on average), and further strengthens test-time scaling via reflection and revision. We also introduce VisualCritic-RewardBench (VC-RewardBench), a benchmark for judging fine-grained image-to-image discrepancies on structured visual data, where Visual-ERM at 8B decisively outperforms Qwen3-VL-235B-Instruct and approaches leading closed-source models. Our results suggest that fine-grained visual reward supervision is both necessary and sufficient for vision-to-code RL, regardless of task specificity.

cs.CV cs.AI