DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

TL;DR

DynVLA通过动态CoT预测紧凑的世界动态，在NAVSIM等数据集上表现优异。

cs.CV 🔴 高级 2026-03-12 15 次浏览

Shuyao Shang Bing Zhan Yunfei Yan Yuqi Wang Yingyan Li Yasong An Xiaoman Wang Jierui Liu Lu Hou Lue Fan Zhaoxiang Zhang Tieniu Tan

AI 阅读器 Arxiv 原文下载 PDF

自动驾驶动态建模视觉语言行动深度学习强化学习

核心发现

方法论

DynVLA引入了一种新的链式思维（CoT）范式，称为动态CoT。其核心组件包括动态标记器（Dynamics Tokenizer），用于将未来的动态压缩为一组紧凑的动态标记。通过对自我中心和环境中心动态的解耦，DynVLA实现了更准确的世界动态建模。此外，通过监督微调（SFT）和强化微调（RFT），DynVLA在生成动作之前生成动态标记，从而提高决策质量并保持推理效率。

关键结果

在NAVSIM基准测试中，DynVLA的PDMS得分最高，超过了传统的端到端方法和最近的VLA方法，表明其在未来动态推理方面的优势。
在Bench2Drive基准上，DynVLA在所有指标上表现最佳，展示了其在长时间交互场景中的优势。
在大规模内部数据集上，DynVLA实现了最低的ADE和碰撞率，表明其在更大数据规模下的可靠性。

研究意义

DynVLA的提出为自动驾驶领域提供了一种新的动态建模方法，通过在动作生成之前推理未来动态，显著提高了决策的准确性和效率。它解决了现有文本和视觉CoT方法在时空理解和推理冗余方面的不足，为自动驾驶模型提供了更具物理基础的决策支持。其在多个基准测试中的优异表现验证了其在学术界和工业界的实用价值。

技术贡献

DynVLA在技术上通过引入动态CoT，提供了一种紧凑的动态表示，减少了推理冗余并提高了时空建模的准确性。与现有的文本和视觉CoT方法相比，DynVLA避免了冗余的推理过程，仅对场景动态进行编码。此外，其动态标记器通过解耦自我中心和环境中心动态，实现了更具物理意义的动态表示。

新颖性

DynVLA首次在自动驾驶中引入了动态CoT范式，通过紧凑的动态表示解决了文本和视觉CoT在时空理解上的不足。其动态标记器的设计在于通过解耦动态因素，提供了更准确的动态建模能力。

局限性

DynVLA在复杂的城市交通场景中可能面临挑战，因为这些场景中的动态因素更加多样化且不可预测。
在高密度交通环境中，动态标记器可能无法捕捉所有重要的动态变化。
需要进一步研究如何在动态变化剧烈的场景中提高模型的鲁棒性。

未来方向

未来的研究方向包括在更复杂的交通场景中测试DynVLA的性能，以及探索如何进一步优化动态标记器的设计以提高其在高密度交通环境中的表现。此外，研究如何将DynVLA与其他自动驾驶技术结合，以实现更全面的自动驾驶解决方案。

AI 总览摘要

自动驾驶技术近年来取得了显著进展，但在复杂的交通场景中，现有的方法仍然面临挑战。传统的文本和视觉链式思维（CoT）方法在时空理解和推理效率方面存在不足，难以应对动态变化频繁的驾驶环境。

为了解决这些问题，研究人员提出了DynVLA，一种新的自动驾驶视觉语言行动（VLA）模型。DynVLA引入了一种新的CoT范式，称为动态CoT，通过在动作生成之前预测紧凑的世界动态，提供更具物理基础的决策支持。其核心组件是动态标记器（Dynamics Tokenizer），用于将未来的动态压缩为一组紧凑的动态标记。

DynVLA通过解耦自我中心和环境中心动态，实现了更准确的世界动态建模。通过监督微调（SFT）和强化微调（RFT），DynVLA在生成动作之前生成动态标记，从而提高决策质量并保持推理效率。与文本和视觉CoT方法相比，动态CoT避免了冗余的推理过程，仅对场景动态进行编码。

在多个基准测试中，DynVLA表现优异。在NAVSIM基准测试中，其PDMS得分最高，超过了传统的端到端方法和最近的VLA方法。在Bench2Drive基准上，DynVLA在所有指标上表现最佳，展示了其在长时间交互场景中的优势。在大规模内部数据集上，DynVLA实现了最低的ADE和碰撞率，表明其在更大数据规模下的可靠性。

DynVLA的提出为自动驾驶领域提供了一种新的动态建模方法，通过在动作生成之前推理未来动态，显著提高了决策的准确性和效率。其在多个基准测试中的优异表现验证了其在学术界和工业界的实用价值。然而，DynVLA在复杂的城市交通场景中可能面临挑战，因为这些场景中的动态因素更加多样化且不可预测。未来的研究方向包括在更复杂的交通场景中测试DynVLA的性能，以及探索如何进一步优化动态标记器的设计以提高其在高密度交通环境中的表现。

深度分析

研究背景

自动驾驶技术的研究已经有几十年的历史，近年来随着深度学习和计算机视觉技术的进步，取得了显著的进展。传统的自动驾驶系统通常依赖于规则和模型驱动的方法，这些方法在简单的驾驶环境中表现良好，但在复杂的城市交通场景中往往难以应对。近年来，端到端的深度学习方法逐渐成为研究热点，通过直接从传感器数据中学习驾驶策略，避免了复杂的规则设计。然而，这些方法在解释性和鲁棒性方面仍然存在不足。

为了提高自动驾驶系统的决策质量，研究人员开始探索视觉语言行动（VLA）模型，这些模型结合了视觉和语言信息，以更好地理解和推理驾驶场景中的复杂动态关系。链式思维（CoT）范式是VLA模型中的一种重要方法，通过在生成动作之前进行推理，提高了决策的可靠性。然而，现有的文本和视觉CoT方法在时空理解和推理效率方面存在不足，难以应对动态变化频繁的驾驶环境。

核心问题

自动驾驶系统在复杂的城市交通场景中面临诸多挑战，这些场景中动态因素多样且不可预测。现有的文本和视觉链式思维（CoT）方法在时空理解和推理效率方面存在不足，难以应对这些动态变化频繁的驾驶环境。文本CoT方法缺乏细粒度的时空理解，而视觉CoT方法由于密集的图像预测引入了大量冗余，导致推理效率低下。因此，亟需一种新的方法来提高自动驾驶系统在复杂动态环境中的决策质量和效率。

核心创新

DynVLA的核心创新在于引入了一种新的链式思维（CoT）范式，称为动态CoT。其动态标记器（Dynamics Tokenizer）通过解耦自我中心和环境中心动态，实现了更准确的世界动态建模。动态CoT通过在动作生成之前预测紧凑的世界动态，提供更具物理基础的决策支持。与现有的文本和视觉CoT方法相比，动态CoT避免了冗余的推理过程，仅对场景动态进行编码。此外，DynVLA通过监督微调（SFT）和强化微调（RFT），在生成动作之前生成动态标记，从而提高决策质量并保持推理效率。

方法详解

DynVLA的实现包括以下几个关键步骤：

�� 动态标记器：首先，DynVLA通过动态标记器将未来的动态压缩为一组紧凑的动态标记。动态标记器通过解耦自我中心和环境中心动态，实现了更准确的世界动态建模。

�� 监督微调（SFT）：在生成动作之前，DynVLA通过监督微调生成动态标记，从而提高决策质量。

�� 强化微调（RFT）：通过强化微调，DynVLA在生成动作之前生成动态标记，从而提高决策质量并保持推理效率。

�� 动态CoT：与现有的文本和视觉CoT方法相比，动态CoT避免了冗余的推理过程，仅对场景动态进行编码。

实验设计

实验设计包括在多个基准测试上的评估，包括NAVSIM、Bench2Drive和一个大规模的内部数据集。实验中使用了多种基线方法进行比较，包括传统的端到端方法和最近的VLA方法。关键的超参数包括动态标记器的大小和解耦策略。实验还进行了消融研究，以验证动态标记器和动态CoT的有效性。

结果分析

在NAVSIM基准测试中，DynVLA的PDMS得分最高，超过了传统的端到端方法和最近的VLA方法。在Bench2Drive基准上，DynVLA在所有指标上表现最佳，展示了其在长时间交互场景中的优势。在大规模内部数据集上，DynVLA实现了最低的ADE和碰撞率，表明其在更大数据规模下的可靠性。消融研究表明，动态标记器和动态CoT的设计对模型性能的提高起到了关键作用。

应用场景

DynVLA的应用场景包括自动驾驶车辆的决策系统，特别是在复杂的城市交通环境中。其紧凑的动态表示和高效的推理过程使其能够在动态变化频繁的场景中提供更可靠的决策支持。DynVLA还可以与其他自动驾驶技术结合，以实现更全面的自动驾驶解决方案。

局限与展望

DynVLA在复杂的城市交通场景中可能面临挑战，因为这些场景中的动态因素更加多样化且不可预测。此外，在高密度交通环境中，动态标记器可能无法捕捉所有重要的动态变化。未来的研究方向包括在更复杂的交通场景中测试DynVLA的性能，以及探索如何进一步优化动态标记器的设计以提高其在高密度交通环境中的表现。

通俗解读非专业人士也能看懂

想象一下你在开车，周围的车辆和行人都在不断变化。为了安全驾驶，你需要预测这些动态变化，并做出相应的决策。DynVLA就像是一个聪明的助手，它能够在你做出驾驶决策之前，先帮你预测未来的交通动态。它通过一种叫做动态标记器的工具，将未来的变化压缩成一组简单的标记。这些标记就像是你驾驶时的指南针，帮助你在复杂的交通环境中做出更明智的决策。与传统的方法不同，DynVLA不仅考虑你自己的驾驶行为，还考虑到周围环境的变化。这就像是在开车时，你不仅要关注自己的车速，还要注意周围车辆的动向。DynVLA通过这种方式，帮助你在复杂的交通环境中安全驾驶。

简单解释像给14岁少年讲一样

嘿，小伙伴们！你们有没有想过，自动驾驶汽车是怎么知道什么时候该转弯或者刹车的？这可不是魔法哦！其实，科学家们发明了一种叫做DynVLA的超级智能系统。想象一下，你在玩赛车游戏，游戏里的车子会根据赛道的变化自动调整速度和方向。DynVLA就像游戏里的智能助手，它能提前预测路上的变化，比如前面的车会不会突然停下，或者旁边的车会不会变道。这样一来，自动驾驶汽车就能提前做出反应，避免碰撞。是不是很酷？不过，这个系统也有一些挑战，比如在车流量很大的时候，它可能会有点忙不过来。但科学家们正在努力改进，让它变得更聪明、更安全。未来，有了DynVLA，自动驾驶汽车会变得更加可靠，让我们的出行更加安全！

术语表

动态标记器 (Dynamics Tokenizer)

动态标记器是一种工具，用于将未来的动态变化压缩成一组紧凑的标记。它通过解耦自我中心和环境中心动态，实现更准确的世界动态建模。

在DynVLA中，动态标记器用于生成紧凑的动态表示，以提高决策质量。

链式思维 (Chain of Thought, CoT)

链式思维是一种推理范式，通过在生成动作之前进行推理，提高决策的可靠性。

在DynVLA中，动态CoT通过紧凑的动态表示，避免了冗余的推理过程。

视觉语言行动模型 (Vision-Language-Action, VLA)

视觉语言行动模型结合了视觉和语言信息，以更好地理解和推理驾驶场景中的复杂动态关系。

DynVLA是一种新的自动驾驶VLA模型，通过动态CoT提高了决策质量。

监督微调 (Supervised Fine-Tuning, SFT)

监督微调是一种训练方法，通过在生成动作之前生成动态标记，提高决策质量。

在DynVLA中，SFT用于在生成动作之前生成动态标记。

强化微调 (Reinforcement Fine-Tuning, RFT)

强化微调是一种训练方法，通过强化学习提高模型的决策质量和推理效率。

在DynVLA中，RFT用于在生成动作之前生成动态标记。

自我中心动态 (Ego-centric Dynamics)

自我中心动态是指由自我车辆的运动引起的动态变化。

在DynVLA中，自我中心动态与环境中心动态一起用于动态建模。

环境中心动态 (Environment-centric Dynamics)

环境中心动态是指由外部变化（如其他交通参与者）引起的动态变化。

在DynVLA中，环境中心动态与自我中心动态一起用于动态建模。

时空建模 (Spatiotemporal Modeling)

时空建模是指对时间和空间维度上的动态变化进行建模。

在DynVLA中，时空建模用于提高决策的准确性。

消融研究 (Ablation Study)

消融研究是一种实验方法，通过移除或修改模型的某些部分来评估其对整体性能的影响。

在DynVLA的实验中，消融研究用于验证动态标记器和动态CoT的有效性。

基准测试 (Benchmark)

基准测试是一种标准化的测试方法，用于评估模型在特定任务上的性能。

在DynVLA的实验中，使用了多个基准测试来评估模型的性能。

开放问题这项研究留下的未解疑问

1 尽管DynVLA在多个基准测试中表现优异，但其在复杂的城市交通场景中的表现仍需进一步验证。这些场景中的动态因素更加多样化且不可预测，可能对模型的鲁棒性提出挑战。
2 在高密度交通环境中，动态标记器可能无法捕捉所有重要的动态变化。如何优化动态标记器的设计以提高其在高密度交通环境中的表现仍需进一步研究。
3 DynVLA的动态标记器通过解耦自我中心和环境中心动态实现了更准确的动态建模，但这种解耦策略在不同场景下的适用性仍需进一步探索。
4 在推理效率方面，尽管动态CoT通过紧凑的动态表示减少了冗余，但在实际应用中如何进一步提高推理效率仍是一个开放问题。
5 未来的研究方向包括将DynVLA与其他自动驾驶技术结合，以实现更全面的自动驾驶解决方案。这需要探索不同技术之间的集成方法。

应用场景

近期应用

自动驾驶车辆决策系统

DynVLA可用于自动驾驶车辆的决策系统，特别是在复杂的城市交通环境中。其紧凑的动态表示和高效的推理过程使其能够在动态变化频繁的场景中提供更可靠的决策支持。

远期愿景

全面自动驾驶解决方案

未来，DynVLA可以与其他自动驾驶技术结合，以实现更全面的自动驾驶解决方案。这需要探索不同技术之间的集成方法，以提高系统的整体性能和安全性。

原文摘要

We propose DynVLA, a driving VLA model that introduces a new CoT paradigm termed Dynamics CoT. DynVLA forecasts compact world dynamics before action generation, enabling more informed and physically grounded decision-making. To obtain compact dynamics representations, DynVLA introduces a Dynamics Tokenizer that compresses future evolution into a small set of dynamics tokens. Considering the rich environment dynamics in interaction-intensive driving scenarios, DynVLA decouples ego-centric and environment-centric dynamics, yielding more accurate world dynamics modeling. We then train DynVLA to generate dynamics tokens before actions through SFT and RFT, improving decision quality while maintaining latency-efficient inference. Compared to Textual CoT, which lacks fine-grained spatiotemporal understanding, and Visual CoT, which introduces substantial redundancy due to dense image prediction, Dynamics CoT captures the evolution of the world in a compact, interpretable, and efficient form. Extensive experiments on NAVSIM, Bench2Drive, and a large-scale in-house dataset demonstrate that DynVLA consistently outperforms Textual CoT and Visual CoT methods, validating the effectiveness and practical value of Dynamics CoT.

cs.CV cs.RO

参考文献 (20)

DriveAdapter: Breaking the Coupling Barrier of Perception and Planning in End-to-End Autonomous Driving

Xiaosong Jia, Yulu Gao, Li Chen 等

2023 132 引用 ⭐ 高影响力查看解读 →

Hidden Biases of End-to-End Driving Models

Bernhard Jaeger, Kashyap Chitta, Andreas Geiger

2023 118 引用 ⭐ 高影响力查看解读 →

Raw2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving (in CARLA v2)

Zhenjie Yang, Xiaosong Jia, Qifeng Li 等

2025 25 引用 ⭐ 高影响力查看解读 →

ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

Haoyu Fu, Diankun Zhang, Zongchuang Zhao 等

2025 86 引用 ⭐ 高影响力查看解读 →

TransFuser: Imitation With Transformer-Based Sensor Fusion for Autonomous Driving

Kashyap Chitta, Aditya Prakash, Bernhard Jaeger 等

2022 571 引用 ⭐ 高影响力查看解读 →

DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving

Xiaosong Jia, Junqi You, Zhiyuan Zhang 等

2025 81 引用 ⭐ 高影响力查看解读 →

Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving

Xiaosong Jia, Peng Wu, Li Chen 等

2023 190 引用 ⭐ 高影响力查看解读 →

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Zhihong Shao, Peiyi Wang, Qihao Zhu 等

2024 4933 引用 ⭐ 高影响力查看解读 →

DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving

Yingyan Li, Shuyao Shang, Weisong Liu 等

2025 24 引用 ⭐ 高影响力查看解读 →

Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline

Peng Wu, Xiaosong Jia, Li Chen 等

2022 314 引用 ⭐ 高影响力查看解读 →

Planning-oriented Autonomous Driving

Yi Hu, Jiazhi Yang, Li Chen 等

2022 1136 引用 ⭐ 高影响力查看解读 →

F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

Qi Lv, Weijie Kong, Hao Li 等

2025 26 引用 ⭐ 高影响力查看解读 →

Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation

Zhenxin Li, Kailin Li, Shihao Wang 等

2024 143 引用 ⭐ 高影响力查看解读 →

SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment

Katrin Renz, Long Chen, Elahe Arani 等

2025 71 引用 ⭐ 高影响力查看解读 →

Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving

Xiaosong Jia, Zhenjie Yang, Qifeng Li 等

2024 171 引用 ⭐ 高影响力查看解读 →

MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning

Haoyu Fu, Diankun Zhang, Zongchuang Zhao 等

2025 2 引用 ⭐ 高影响力查看解读 →

Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes

Jiang-Tian Zhai, Ze Feng, Jinhao Du 等

2023 150 引用 ⭐ 高影响力查看解读 →

VAD: Vectorized Scene Representation for Efficient Autonomous Driving

Bo Jiang, Shaoyu Chen, Qing Xu 等

2023 521 引用 ⭐ 高影响力查看解读 →

NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking

Daniel Dauner, Marcel Hallgarten, Tianyu Li 等

2024 208 引用 ⭐ 高影响力查看解读 →

Enhancing End-to-End Autonomous Driving with Latent World Model

Yingyan Li, Lue Fan, Jiawei He 等

2024 91 引用 ⭐ 高影响力查看解读 →

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

动态标记器 (Dynamics Tokenizer)

链式思维 (Chain of Thought, CoT)

视觉语言行动模型 (Vision-Language-Action, VLA)

监督微调 (Supervised Fine-Tuning, SFT)

强化微调 (Reinforcement Fine-Tuning, RFT)

自我中心动态 (Ego-centric Dynamics)

环境中心动态 (Environment-centric Dynamics)

时空建模 (Spatiotemporal Modeling)

消融研究 (Ablation Study)

基准测试 (Benchmark)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

自动驾驶车辆决策系统

远期愿景

全面自动驾驶解决方案

原文摘要

参考文献 (20)

相关论文

Visual-ERM: Reward Modeling for Visual Equivalence

Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问