OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

TL;DR

OneVL通过视觉-语言解释实现一步潜在推理和规划,超越显式CoT,达到答案级延迟。

cs.CV 🔴 高级 2026-04-21 35 次浏览
Jinghui Lu Jiayi Guan Zhijian Huang Jinlong Li Guang Li Lingdong Kong Yingyan Li Han Wang Shaoqing Xu Yuechen Luo Fang Li Chenxu Dang Junli Wang Tao Xu Jing Wu Jianhua Wu Xiaoshuai Hao Wen Zhang Tianyi Jiang Lingfeng Zhang Lei Zhou Yingbo Tang Jie Wang Yinfeng Gao Xizhou Bu Haochen Tian Yihang Qiu Feiyang Jia Lin Liu Yigu Ge Hanbing Li Yuannan Shen Jianwei Cui Hongwei Xie Bing Wang Haiyang Sun Jingwei Zhao Jiahui Huang Pei Liu Zeyu Zhu Yuncheng Jiang Zibin Guo Chuhong Gong Hanchao Leng Kun Ma Naiyang Wang Guang Chen Kuiyuan Yang Hangjun Ye Long Chen
自动驾驶 视觉语言模型 潜在推理 世界模型 链式思维

核心发现

方法论

OneVL是一种结合视觉-语言模型和世界模型的框架,通过紧凑的潜在标记进行推理,并由双辅助解码器监督。语言解码器重构文本链式思维,而视觉世界模型解码器预测未来帧标记,迫使潜在空间内化道路几何、代理运动和环境变化的因果动态。三阶段训练管道逐步将这些潜在标记与轨迹、语言和视觉目标对齐,确保稳定的联合优化。

关键结果

  • OneVL在四个基准测试中首次超越显式CoT方法,提供了答案级别的延迟和最先进的准确性。例如,在NAVSIM数据集上,OneVL的延迟与仅答案预测相匹配,比显式自回归CoT快0.5倍。
  • 在ROADWork数据集上,预填充延迟与仅答案预测相同,比显式自回归CoT快0.3倍。
  • 附加的MLP头用于生成轨迹,进一步将延迟减少到0.24秒,提升了16.4%的效率。

研究意义

OneVL的研究意义在于其通过紧凑的潜在表示实现了更具普遍性的推理,解决了显式链式思维在实时部署中的延迟问题。通过语言和世界模型的监督,OneVL提供了比逐个标记推理更普遍的表示。这种方法不仅在学术界具有重要意义,也为工业界的自动驾驶系统提供了新的解决方案。

技术贡献

OneVL的技术贡献在于其创新性地结合了视觉和语言解码器,以监督潜在标记的压缩表示。这种方法不仅解决了传统潜在链式思维方法在多模态推理中的不足,还通过预填充推理机制显著提高了推理速度。其三阶段训练管道确保了潜在瓶颈与轨迹预测的对齐,捕捉了因果结构而非记忆化模式。

新颖性

OneVL首次在潜在链式思维方法中引入了视觉世界模型解码器,以预测未来帧标记,从而确保潜在空间内化因果动态。这种方法不仅超越了语言唯一的潜在表示,还通过紧凑的潜在标记实现了更高效的推理。

局限性

  • OneVL在某些复杂场景下可能无法完全捕捉所有的因果动态,尤其是在环境变化剧烈的情况下。
  • 该方法依赖于大量的训练数据和计算资源,可能不适用于资源有限的场景。
  • 在极端天气条件下,视觉解码器的预测准确性可能受到影响。

未来方向

未来的研究方向包括进一步优化潜在标记的设计,以提高在复杂场景下的推理能力。此外,可以探索在不同天气条件下的鲁棒性,以及减少训练数据和计算资源需求的方法。

AI 总览摘要

链式思维(CoT)推理已成为基于视觉-语言动作(VLA)自动驾驶中轨迹预测的强大驱动力,但其自回归性质导致的延迟成本使得实时部署变得不可行。潜在CoT方法试图通过将推理压缩到连续的隐藏状态来缩小这一差距,但始终不如显式方法。我们认为这是由于纯语言潜在表示压缩了世界的符号抽象,而不是实际支配驾驶的因果动态。因此,我们提出了OneVL(通过视觉-语言解释实现一步潜在推理和规划),这是一个统一的VLA和世界模型框架,通过由双辅助解码器监督的紧凑潜在标记进行推理。除了重构文本CoT的语言解码器外,我们还引入了一个视觉世界模型解码器,预测未来帧标记,迫使潜在空间内化道路几何、代理运动和环境变化的因果动态。三阶段训练管道逐步将这些潜在标记与轨迹、语言和视觉目标对齐,确保稳定的联合优化。在推理时,辅助解码器被丢弃,所有潜在标记在单个并行传递中预填充,匹配仅答案预测的速度。在四个基准测试中,OneVL成为第一个超越显式CoT的潜在CoT方法,提供了答案级别的延迟和最先进的准确性,并提供了直接证据表明,在语言和世界模型监督下的更紧密压缩产生了比逐个标记推理更普遍的表示。

OneVL的架构包括一个预训练的视觉-语言模型(VLM),一个紧凑的潜在标记接口和用于多模态解释的双辅助解码器。其骨干是Qwen3-VL-4B-Instruct,一个处理交错图像和文本输入的VLM。模型由三个标准组件组成:视觉编码器(ViT)、视觉投影器(MLP对齐器)和大型语言模型(LLM)。所有三个组件都从Qwen3-VL-4B-Instruct检查点初始化,并在阶段0和2中保持完全可训练。骨干主要通过标准的下一个标记预测目标进行优化,对轨迹答案和引入的潜在推理标记应用交叉熵损失。

OneVL的关键创新在于引入了双模态辅助解码器:一个语言辅助解码器,从紧凑的语言潜在标记中重构人类可读的CoT推理,以及一个视觉辅助解码器,从视觉潜在表示中预测预期的未来帧。视觉解码器充当世界模型辅助的角色。通过迫使压缩的潜在标记预测场景在未来时间步的样子,它确保了瓶颈编码真正的因果场景动态,如代理轨迹、道路几何演变和新出现的危险,而不是抽象的符号总结。这正是语言唯一的潜在CoT中缺失的成分。未来帧预测是一个直接反映物理世界因果结构的压缩目标,以一种文本描述无法做到的方式满足了智力的压缩视角。由此产生的框架在单个模型中同时处理规划、语言推理和视觉解释。

除了可解释性之外,双重重构目标还起到了更深层次的作用:它们确保压缩的潜在标记编码真正可推广的结构,而不是表面的相关性。如果紧凑的潜在标记可以解码为连贯的语言推理和合理的未来帧,模型就必然发现了场景动态的可转移表示,而不是记忆化的输入-输出映射。关键是,世界模型监督(视觉解码器)和语言监督作为互补的验证形式。语言将潜在标记与语义意图联系在一起,而视觉预测将它们与物理场景动态联系在一起。它们共同保证压缩表示满足稳健轨迹规划的语义和因果要求。

在推理时,潜在标记(包括视觉和语言)被预填充到模型的上下文中,作为固定的提示输入,启用所有潜在标记的单次生成。这消除了迭代潜在标记生成的开销,实现了与仅答案AR预测基本相同的推理速度。由此产生的模型在统一序列中执行一步潜在推理(快速推理)、视觉-语言解释(可解释推理)和最终规划。经验表明,OneVL不仅匹配而且超越了显式AR CoT的轨迹质量,证明压缩不仅不是必要的妥协,而是更有效推理的驱动力。

深度分析

研究背景

近年来,视觉-语言模型(VLMs)迅速成为自动驾驶的基础构建块,将整体场景理解、自然语言推理和端到端轨迹规划统一在一个模型中。随着这些模型进一步扩展以产生动作输出,如轨迹航点或控制信号,它们被称为视觉-语言-动作模型(VLAs)。链式思维(CoT)推理是VLA驱动的一个核心进展,它通过在做出最终轨迹之前明确中间推理步骤,显著提高了预测质量。然而,CoT在实际驾驶系统中的部署面临着解释性和效率之间的尖锐矛盾。标准的自回归(AR)CoT生成必须在产生轨迹之前发出每个推理标记,这导致推理延迟与链长成正比,这远高于仅答案预测的延迟。在安全关键的实时环境中,这一差距是不可接受的。

核心问题

尽管显式CoT在推理质量上取得了显著进展,但其自回归性质导致的延迟成本使得实时部署变得不可行。此外,显式CoT链显得冗余,例如,序列的大部分只是重述上下文或遵循公式化模式。这种冗余表明,关键的推理内容可以压缩成更紧凑的形式,而不牺牲甚至加强泛化,因为更紧密的压缩迫使模型仅保留对预测真正重要的因果结构。

核心创新

OneVL通过两个关键创新克服了先前潜在CoT方法的局限性。首先,我们引入了双模态辅助解码器:一个语言辅助解码器,从紧凑的语言潜在标记中重构人类可读的CoT推理,以及一个视觉辅助解码器,从视觉潜在表示中预测预期的未来帧。其次,我们设计了一个预填充推理机制。在推理时,潜在标记(包括视觉和语言)被预填充到模型的上下文中,作为固定的提示输入,启用所有潜在标记的单次生成。这消除了迭代潜在标记生成的开销,实现了与仅答案AR预测基本相同的推理速度。

方法详解

  • �� OneVL的骨干是Qwen3-VL-4B-Instruct,一个处理交错图像和文本输入的VLM。模型由三个标准组件组成:视觉编码器(ViT)、视觉投影器(MLP对齐器)和大型语言模型(LLM)。

  • �� 语言辅助解码器旨在从紧凑的语言潜在隐藏状态中恢复人类可读的CoT推理文本。输入构建包括从骨干提取的当前帧ViT补丁嵌入和语言潜在隐藏状态。

  • �� 视觉辅助解码器旨在预测预期的未来帧视觉标记。输入构建包括从主模型的视觉编码器提取的当前帧ViT嵌入和视觉潜在标记隐藏状态。

  • �� 总训练损失包括主模型的交叉熵损失、语言解释损失和视觉解释损失。视觉解释损失的较低权重反映了视觉标记重构是一项更困难的任务,较小的权重防止其主导训练信号。

实验设计

实验设计包括在四个基准测试上评估OneVL的性能。这些基准测试包括NAVSIM和ROADWork数据集。我们使用显式自回归CoT作为基线,并比较OneVL在预测准确性和推理延迟方面的表现。关键超参数包括潜在标记的数量和辅助解码器的训练权重。消融研究用于验证每个组件的贡献,特别是视觉和语言解码器在性能提升中的作用。

结果分析

OneVL在四个基准测试中首次超越显式CoT方法,提供了答案级别的延迟和最先进的准确性。例如,在NAVSIM数据集上,OneVL的延迟与仅答案预测相匹配,比显式自回归CoT快0.5倍。在ROADWork数据集上,预填充延迟与仅答案预测相同,比显式自回归CoT快0.3倍。附加的MLP头用于生成轨迹,进一步将延迟减少到0.24秒,提升了16.4%的效率。

应用场景

OneVL的直接应用场景包括自动驾驶系统中的实时轨迹预测。其紧凑的潜在表示和预填充推理机制使其适用于需要快速响应的驾驶环境。此外,该方法在其他多模态推理任务中也具有潜在应用,如机器人导航和智能监控系统。

局限与展望

OneVL在某些复杂场景下可能无法完全捕捉所有的因果动态,尤其是在环境变化剧烈的情况下。此外,该方法依赖于大量的训练数据和计算资源,可能不适用于资源有限的场景。在极端天气条件下,视觉解码器的预测准确性可能受到影响。未来的研究方向包括进一步优化潜在标记的设计,以提高在复杂场景下的推理能力。

通俗解读 非专业人士也能看懂

想象一下你在厨房里做饭。显式链式思维就像你每做一步都要详细记录下来,比如切菜、加盐、搅拌等等。这种方法虽然详细,但如果你要快速做饭,这样的记录会拖慢速度。潜在链式思维就像你心里有个大概的步骤,不需要每一步都写下来,只要知道最后要做出一道美味的菜。OneVL就像是一个聪明的厨师,它不仅记住了步骤,还能预测接下来要做的事情,比如什么时候该翻炒,什么时候该加水。通过这种方式,它能更快地做出美味的菜肴,而不需要每一步都详细记录下来。

简单解释 像给14岁少年讲一样

嘿,小伙伴!你有没有想过自动驾驶汽车是怎么知道要往哪儿开的?这就像玩游戏时,你要提前计划好下一步怎么走。科学家们发明了一种叫OneVL的方法,就像是给汽车装了一个超级聪明的大脑。这个大脑不仅能看路上的情况,还能用语言告诉自己下一步该怎么走。就像你在玩游戏时,心里想着:‘先往左,再跳一下,然后冲刺!’而且,这个大脑还能预测未来,比如前面会不会有障碍物。这样,汽车就能更快、更安全地到达目的地啦!是不是很酷?

术语表

视觉-语言模型 (Vision-Language Model)

一种结合视觉和语言信息进行推理和决策的模型,常用于自动驾驶和机器人领域。

在OneVL中,视觉-语言模型用于处理交错的图像和文本输入。

链式思维 (Chain-of-Thought)

一种推理方法,通过明确中间步骤来提高预测质量,常用于复杂决策任务。

OneVL通过紧凑的潜在标记实现了链式思维的压缩表示。

潜在标记 (Latent Token)

用于携带隐式推理信息的紧凑标记,帮助模型在推理过程中压缩信息。

OneVL使用潜在标记来压缩和传递推理信息。

世界模型 (World Model)

一种模拟环境动态变化的模型,常用于预测未来场景状态。

OneVL的视觉解码器充当世界模型辅助角色,预测未来帧。

自回归 (Autoregressive)

一种逐步生成输出的模型结构,每一步依赖于前一步的输出。

显式链式思维方法通常采用自回归生成方式。

预填充推理 (Prefill Inference)

一种在推理时预先填充潜在标记的方法,以加快推理速度。

OneVL通过预填充推理机制实现了与仅答案预测相同的速度。

视觉解码器 (Visual Decoder)

用于从视觉潜在表示中预测未来帧的解码器,帮助模型内化因果动态。

OneVL的视觉解码器用于预测未来帧标记。

语言解码器 (Language Decoder)

用于从语言潜在标记中重构人类可读推理文本的解码器。

OneVL的语言解码器用于重构文本链式思维。

多模态 (Multimodal)

涉及多种信息模态(如视觉和语言)的处理和分析。

OneVL通过多模态解释实现了更高效的推理。

消融研究 (Ablation Study)

一种通过去除或修改模型组件来评估其贡献的研究方法。

OneVL的消融研究验证了视觉和语言解码器的贡献。

开放问题 这项研究留下的未解疑问

  • 1 尽管OneVL在多个基准测试中表现优异,但在极端天气条件下的鲁棒性仍需进一步验证。当前的方法可能无法完全捕捉所有的环境变化,特别是在复杂的驾驶场景中。未来的研究可以探索如何在不增加计算成本的情况下提高模型的鲁棒性。
  • 2 OneVL依赖于大量的训练数据和计算资源,这可能限制其在资源有限环境中的应用。未来的研究可以探索如何减少训练数据和计算资源的需求,同时保持模型的性能。
  • 3 当前的潜在标记设计可能在某些复杂场景下无法完全捕捉所有的因果动态。未来的研究可以探索更优化的潜在标记设计,以提高在复杂场景下的推理能力。
  • 4 虽然OneVL通过视觉和语言解码器实现了多模态解释,但在某些情况下,视觉解码器的预测准确性可能受到影响。未来的研究可以探索如何提高视觉解码器在不同环境下的预测准确性。
  • 5 OneVL的预填充推理机制显著提高了推理速度,但在某些情况下,可能无法完全捕捉所有的推理信息。未来的研究可以探索如何在不增加延迟的情况下提高推理信息的完整性。

应用场景

近期应用

自动驾驶系统

OneVL可以用于自动驾驶系统中的实时轨迹预测,其紧凑的潜在表示和预填充推理机制使其适用于需要快速响应的驾驶环境。

机器人导航

OneVL的多模态推理能力使其适用于机器人导航任务,能够在复杂环境中做出快速决策。

智能监控系统

OneVL可以用于智能监控系统,通过视觉和语言解码器实现对复杂场景的多模态解释。

远期愿景

智能交通管理

OneVL可以用于智能交通管理系统,通过实时轨迹预测和多模态解释提高交通流量的管理效率。

人机交互系统

OneVL的多模态推理能力可以用于人机交互系统,提高系统对人类指令的理解和响应能力。

原文摘要

Chain-of-Thought (CoT) reasoning has become a powerful driver of trajectory prediction in VLA-based autonomous driving, yet its autoregressive nature imposes a latency cost that is prohibitive for real-time deployment. Latent CoT methods attempt to close this gap by compressing reasoning into continuous hidden states, but consistently fall short of their explicit counterparts. We suggest that this is due to purely linguistic latent representations compressing a symbolic abstraction of the world, rather than the causal dynamics that actually govern driving. Thus, we present OneVL (One-step latent reasoning and planning with Vision-Language explanations), a unified VLA and World Model framework that routes reasoning through compact latent tokens supervised by dual auxiliary decoders. Alongside a language decoder that reconstructs text CoT, we introduce a visual world model decoder that predicts future-frame tokens, forcing the latent space to internalize the causal dynamics of road geometry, agent motion, and environmental change. A three-stage training pipeline progressively aligns these latents with trajectory, language, and visual objectives, ensuring stable joint optimization. At inference, the auxiliary decoders are discarded and all latent tokens are prefilled in a single parallel pass, matching the speed of answer-only prediction. Across four benchmarks, OneVL becomes the first latent CoT method to surpass explicit CoT, delivering state-of-the-art accuracy at answer-only latency, and providing direct evidence that tighter compression, when guided in both language and world-model supervision, produces more generalizable representations than verbose token-by-token reasoning. Project Page: https://xiaomi-embodied-intelligence.github.io/OneVL

cs.CV cs.CL cs.RO