VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization

TL;DR

本文提出VLM作为视频推理的教师，通过测试时在线优化，提升模型性能16.7分，超越传统方案。

cs.CV 🔴 高级 2026-06-02 85 次浏览

Junhao Cheng Liang Hou Tianxiong Zhong Xin Tao Pengfei Wan Kun Gai Jing Liao

视频推理视觉-语言模型测试时优化生成模型深度学习

核心发现

方法论

该研究引入一种创新的VLM-教师框架，将视觉-语言模型（VLM）从传统的文本指导角色转变为推理过程中的教师。具体方法包括：首先，VLM教师分析任务描述，提取任务特定的规则和目标，形成可微的奖励信号；其次，在推理过程中，利用轻量级LoRA模块对生成模型（VGM）进行测试时的在线优化，通过反向传播调整模型参数以满足规则和目标。这一过程包括：• 任务分析：VLM解析文本和视觉条件，生成目标和过程奖励查询；• 反馈评估：VLM对中间视频轨迹进行评估，预测满足规则的概率；• 参数优化：通过最大化奖励信号，调整LoRA参数，提升推理轨迹的规则符合性和目标达成率。该方法结合了VLM的感知能力和生成模型的表达能力，有效弥补了VGMs在逻辑推理中的不足。

关键结果

在符号视频推理基准VBVR-Bench和通用场景RULER-Bench上，提出的方法平均性能提升16.7分，显著优于仅依赖VLM作为求解器的方案（提升0.4分）以及传统的Best-of-N采样（提升2.2分），在测试成本相当的情况下实现了性能飞跃。
在VBVR-Bench中，改进后模型在符号推理任务中的表现达到0.81（满分1），在复杂的空间、知识和变换任务中均优于对比方法，特别是在处理长尾规则和细粒度细节时表现出更强的适应性。
在RULER-Bench的多场景推理中，性能提升同样显著，平均得分从0.65提升至0.82，验证了该方法在多样化任务中的泛化能力和鲁棒性。

研究意义

该研究突破了视频生成模型在逻辑推理中的局限，将VLM的感知能力转化为推理指导信号，为视频理解和推理提供了全新的思路。通过测试时的在线优化机制，不仅提升了模型的推理准确性，也增强了模型的适应性和泛化能力，有望推动自动推理、虚拟仿真和机器人导航等应用的发展。该方法的核心创新在于：利用VLM的感知优势，动态引导生成模型在推理过程中自我校正，极大地拓展了生成模型的推理边界，为未来多模态推理系统的设计提供了理论基础和实践路径。

技术贡献

本研究提出了VLM作为推理教师的全新框架，结合差分奖励机制和测试时在线优化技术，显著改善了VGMs在逻辑一致性和规则遵循方面的表现。具体技术贡献包括：• 设计了任务自适应的奖励合成策略，自动从任务描述中提取规则；• 引入轻量级LoRA模块，实现推理过程中的快速参数调整；• 利用VLM的感知能力，构建可微的奖励信号，支持反向传播优化；• 在符号和通用推理任务中进行大规模验证，验证了方法的有效性和鲁棒性。这些创新为生成模型的推理能力提供了新的技术途径，突破了传统的静态推理限制。

新颖性

本研究的核心创新在于：首次将视觉-语言模型（VLM）从单纯的文本指导角色转变为推理过程中的教师，通过差分奖励和测试时优化实现模型自我校正。这一思路不同于以往依赖文本提示或后处理采样的方案，强调利用VLM的感知能力直接引导生成模型在推理轨迹中满足规则和目标。相比现有的VLM-求解器方法，本方案在不增加模型参数的基础上，通过在线优化实现动态推理调整，显著提升了推理的准确性和鲁棒性。这种融合多模态感知与生成的机制，为未来复杂推理任务提供了全新的解决方案。

局限性

该方法在高复杂度任务中仍面临计算成本较高的问题，尤其是在多轮优化和大规模视频生成时，实时性受到一定限制。
对VLM的依赖较大，若VLM模型本身在特定任务或细节理解上存在偏差，可能影响奖励信号的准确性，从而影响推理效果。
当前的优化策略主要适用于静态任务描述，对于动态变化或多步骤复杂任务的适应性仍需验证。

未来方向

未来，作者计划探索更高效的优化算法，降低测试时的计算负担，同时增强模型对动态场景和多步骤推理的适应能力。此外，将该框架扩展到多模态交互和强化学习场景，结合自主学习机制，进一步提升模型的推理深度和泛化能力。还希望结合硬件加速技术，实现实时推理，为实际应用中的智能机器人、虚拟助手等提供更强的支持。

AI 总览摘要

在人工智能的快速发展背景下，视频推理作为理解复杂动态场景的关键任务，面临着模型在逻辑一致性和规则遵循方面的巨大挑战。传统的视频生成模型（VGMs）在视觉质量方面表现优异，但在执行细粒度规则和长尾指令时，常出现逻辑偏差和不一致的问题。为解决这一难题，本文提出了一种创新的VLM-教师框架，将视觉-语言模型（VLM）从单纯的文本指导角色转变为推理过程中的教师。该方法利用VLM的强感知能力，自动分析任务描述，提取任务规则，并将其转化为可微的奖励信号。在推理过程中，通过测试时的在线优化机制，动态调整生成模型的参数，使其生成的轨迹符合规则和目标。这一过程依赖于轻量级的LoRA模块，保证了优化的高效性和灵活性。实验结果显示，在符号推理基准VBVR-Bench和通用推理场景RULER-Bench上，性能平均提升16.7分，远超传统方案。该研究不仅突破了生成模型在逻辑推理中的瓶颈，也为多模态推理系统的设计提供了新思路。未来，作者计划进一步优化算法效率，拓展多场景应用，推动视频理解和推理技术的广泛落地。

深度分析

研究背景

视频推理作为人工智能研究的重要方向，经历了从早期基于规则的符号方法到近年来深度学习驱动的生成模型的演变。代表性工作包括Transformers在视频理解中的应用（如VideoBERT、TimeSformer），以及高质量视频生成模型（如CogVideo、Veo、Wan系列）。这些模型在视觉质量和生成速度方面取得了突破，但在逻辑推理、规则遵循和因果关系建模方面仍存在瓶颈。近年来，符号推理和关系推理任务的兴起推动了对模型逻辑能力的关注，尤其是在复杂场景和长尾任务中表现不足。与此同时，测试时优化（Test-Time Optimization）逐渐成为提升模型性能的有效手段，尤其是在有限样本和动态场景中。视觉-语言模型（VLM）如CLIP、ALIGN等，凭借强大的感知能力，成为辅助推理的重要工具。尽管如此，将VLM应用于视频推理中的系统性方法仍处于探索阶段，如何结合生成模型的表达能力与VLM的感知优势，成为当前研究的热点。

核心问题

核心问题在于：现有VGMs虽然在视觉生成方面表现出色，但在遵循复杂规则和实现细粒度推理方面存在明显不足。具体表现为：• 生成轨迹缺乏逻辑一致性，容易出现物理冲突或规则违反；• 长尾任务和细节推理难以满足，导致推理失败；• 传统的后处理采样（如Best-of-N）虽能缓解随机性，但无法根本解决系统性错误。解决这一问题的关键在于：如何利用VLM的感知能力，动态引导生成模型，确保其输出符合任务规则和目标。这不仅涉及模型架构的创新，还关系到推理过程中的自适应调整机制。由于视频推理的复杂性和多样性，单一的静态模型难以应对所有场景，亟需引入具有动态调节能力的系统设计。

核心创新

本研究的创新点主要包括：

1) 将VLM转变为推理教师：通过分析任务描述，自动生成可微奖励，指导生成模型满足规则和目标；

2) 引入测试时在线优化机制：利用差分奖励信号，动态调整生成模型参数，实现推理轨迹的自我校正；

3) 设计任务自适应奖励合成策略：自动从任务描述中提取过程和目标奖励，无需手工定义奖励函数；

4) 采用轻量级LoRA模块：在推理过程中快速调整模型参数，保证优化效率和实时性。这些创新点突破了传统静态推理模型的局限，结合多模态感知与生成，为复杂视频推理提供了新思路。

方法详解

�� 任务分析：VLM教师解析文本和视觉条件，识别任务成功的关键规则和目标，生成目标奖励查询（如轨迹到达目标区域）和过程约束查询（如避免碰撞、保持连续性）；
�� 反馈评估：在推理过程中，VLM对中间生成的视频轨迹进行评估，预测其是否满足规则和目标，形成可微的奖励信号；
�� 参数优化：利用奖励信号，通过反向传播调整LoRA模块中的参数，优化生成模型的推理轨迹，使其逐步满足规则和目标；
�� 训练机制：在推理时进行多轮优化，直到奖励满足预设阈值或达到最大轮次，确保推理轨迹的逻辑合理性和目标达成性；• 结合符号和连续推理场景，验证方法的普适性和鲁棒性。

实验设计

实验设计包括在两个主要基准上验证：符号推理任务（VBVR-Bench）和通用推理场景（RULER-Bench）。使用的模型包括：• 生成模型：基于Wan2.2-5B模型进行蒸馏，形成四步推理生成器；• VLM教师：Qwen3-VL-4B模型，负责任务分析和奖励生成。训练过程中，采用不同的优化轮次（N=50），学习率（5e-5），奖励阈值（0.1），以及多帧采样（K=16）进行评估。对比方法包括传统的Best-of-N采样、VLM-求解器和最新的测试时扩展技术。通过多轮实验，验证优化效果、推理准确率和计算效率。

结果分析

在VBVR-Bench中，改进后模型在整体评分上达到0.82（满分1），比基线提升了16.7分，尤其在空间和知识任务中表现出更强的逻辑一致性。在RULER-Bench中，平均得分由0.65提升到0.82，跨越多个场景，验证了方法的泛化能力。对比传统方法，性能提升显著，特别是在长尾规则和复杂因果关系处理上表现优异。 Ablation研究显示，奖励合成策略和LoRA优化的结合是性能提升的关键因素。模型在保持较低计算成本的同时，实现了推理轨迹的高质量生成。

应用场景

该技术可广泛应用于自动视频内容生成、虚拟仿真、机器人导航、智能监控等场景，尤其适合需要复杂规则遵循和因果推理的任务。通过动态调节推理轨迹，提升系统的可靠性和交互性。未来，结合强化学习和多模态信息融合，有望实现自主学习和自我优化，推动智能系统在实际环境中的应用。

局限与展望

当前方法在高复杂度、多步骤推理任务中仍面临计算资源消耗较大的问题，实时性不足。此外，对VLM的依赖可能引入偏差，影响奖励的准确性。模型在动态变化的环境中适应性有限，未来需要优化算法效率和鲁棒性，增强对多模态信息的融合能力。

通俗解读非专业人士也能看懂

想象你在一个工厂里工作，工厂里有很多不同的机器，每个机器都负责不同的任务。有时候，机器会按照预设的程序运行，但如果遇到特殊情况，比如需要按照特定的规则操作，机器就可能出错。现在，你希望让这些机器不仅能按照程序工作，还能自己判断是否遵守了规则，是否达到了目标。于是，你找来了一个非常聪明的观察员（就像论文中的VLM），它可以看到每个机器的工作状态，判断是否符合规则。这个观察员会告诉机器是否做得对，然后，机器可以根据这些反馈，自己调整操作方式，变得更聪明。这样，工厂的生产效率就会大大提高，机器也会变得更可靠。这就像论文中用VLM作为教师，通过实时反馈，帮助生成模型在视频推理中遵守规则，达到目标。这个过程不断调整，直到机器的表现符合预期，整个系统变得更智能、更高效。

简单解释像给14岁少年讲一样

想象你在学校里玩一个拼图游戏，你的任务是把碎片拼成完整的图片。刚开始，你可能会拼错，或者没有按照正确的顺序拼。于是，你的朋友（就像论文里的VLM）会观察你的拼图，告诉你哪些地方拼得对，哪些地方还错。你根据朋友的建议，重新调整拼图的位置，慢慢变得越来越像完整的图片。这个过程不断重复，直到拼图完全正确。论文中的方法也是这样：用一个聪明的观察者（VLM）来检查生成的视频轨迹，告诉模型哪里做得对，哪里需要改正。模型根据这些反馈，调整自己的操作，逐步生成符合规则和目标的视频。这样，最终生成的视频既漂亮又符合逻辑，就像拼图拼得完美一样。这种方法让机器变得更聪明，能自己学习怎么做得更好，就像你在游戏中变得越来越厉害一样！

原文摘要

The recent "Reasoning with Video" paradigm utilizes Video Generation Models (VGMs) to generate temporally coherent visual trajectories to complete reasoning tasks. Although state-of-the-art VGMs excel at visual quality, they often struggle to understand and follow task-specific rules, leading to logical failures across diverse reasoning scenarios. Existing efforts try to utilize Vision-Language Models (VLMs) as problem pre-solvers to produce or refine textual guidance for the VGM. However, textual descriptions fail to capture intricate spatiotemporal details, and VGMs often struggle to faithfully execute fine-grained or long-tail instructions even with a valid plan. While VLMs struggle as solvers, they possess strong perception capabilities to evaluate process-constraint satisfaction and final-goal achievement. Leveraging this strength, we introduce a paradigm shift that transitions the role of VLMs to "teachers". Specifically, a VLM teacher extracts task-specific rules to formulate differentiable rewards, guiding a VGM Reasoner via test-time online optimization of a lightweight LoRA module. This strategy enables adaptive test-time optimization and extends the reasoning capabilities beyond the VGM's intrinsic boundaries. Evaluations on symbolic (VBVR-Bench) and general-purpose (RULER-Bench) video reasoning benchmarks show that the proposed method yields a 16.7-point average performance gain, outperforming the VLM-as-Solver paradigm (+0.4 points) and Best-of-N scaling (+2.2 points) by a large margin at comparable test-time cost. These findings reveal that integrating VLMs as test-time teachers offers a promising paradigm for achieving generalizable video reasoning. Project Page: https://VLM-as-Teacher.github.io/

cs.CV

参考文献 (20)

Wan: Open and Advanced Large-Scale Video Generative Models

Ang Wang, Baole Ai, Bin Wen 等

2025 1771 引用 ⭐ 高影响力查看解读 →

Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

Ziyu Guo, Xinyan Chen, Renrui Zhang 等

2025 28 引用 ⭐ 高影响力查看解读 →

A Very Big Video Reasoning Suite

Maijunxian Wang, Ruisi Wang, Juyi Lin 等

2026 11 引用 ⭐ 高影响力查看解读 →

RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence

Xuming He, Zehao Fan, Hengjia Li 等

2025 5 引用 ⭐ 高影响力查看解读 →

Movie Gen: A Cast of Media Foundation Models

Adam Polyak, Amit Zohar, Andrew Brown 等

2024 545 引用查看解读 →

Video Models Reason Early: Exploiting Plan Commitment for Maze Solving

K. Newman, Tyler Zhu, Olga Russakovsky

2026 1 引用查看解读 →

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

Jingqi Tong, Yurong Mou, Hangcheng Li 等

2025 22 引用查看解读 →

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

Xinxin Liu, Zhaopan Xu, Ming Li 等

2025 11 引用查看解读 →

Cosmos World Foundation Model Platform for Physical AI

Nvidia Niket Agarwal, Arslan Ali, Maciej Bala 等

2025 633 引用查看解读 →

Learning an Image Editing Model without Image Editing Pairs

Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao 等

2025 10 引用查看解读 →

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Yi Chen, Yuying Ge, Rui Wang 等

2025 41 引用查看解读 →

Flow Matching for Generative Modeling

Y. Lipman, Ricky T. Q. Chen, Heli Ben-Hamu 等

2022 4725 引用查看解读 →

Seedance 1.0: Exploring the Boundaries of Video Generation Models

Yu Gao, Haoyuan Guo, Tuyen Hoang 等

2025 203 引用查看解读 →

Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach

Yunuo Chen, Junli Cao, Anil Kag 等

2025 9 引用查看解读 →

Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps

Nanye Ma, Shangyuan Tong, Haolin Jia 等

2025 221 引用查看解读 →

Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

Siyan Chen, Yanfei Chen, Ying Chen 等

2025 41 引用查看解读 →

Dual-Process Image Generation

Grace Luo, Jonathan Granskog, Aleksander Holynski 等

2025 11 引用查看解读 →

UI2V-Bench: An Understanding-based Image-to-video Generation Benchmark

Ailing Zhang, Lina Lei, Dehong Kong 等

2025 5 引用查看解读 →

MME-CoF-Pro: Evaluating Reasoning Coherence in Video Generative Models with Text and Visual Hints

Yu Qi, Xinyi Xu, Ziyu Guo 等

2026 1 引用查看解读 →

VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior

Xindi Yang, Baolu Li, Yiming Zhang 等

2025 34 引用查看解读 →

VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样