核心发现
方法论
本文研究了六种视觉-语言-动作(VLA)模型,参数范围从80M到7B,使用激活注入、稀疏自编码器(SAEs)和线性探针等方法。通过394,000多个回合的实验,分析了视觉路径在动作生成中的主导作用。研究表明,视觉路径在所有架构中占据主导地位,语言敏感性取决于任务结构而非模型设计。
关键结果
- 视觉路径主导:在所有架构中,注入基线激活到空提示回合中恢复了几乎相同的行为,跨任务注入将机器人引导至源任务位置,99.8%的X-VLA回合与源轨迹对齐。
- 语言敏感性:当视觉上下文唯一指定任务时,语言被忽略;当多个目标共享一个场景时,语言变得至关重要(X-VLA libero_goal:错误提示下成功率从94%降至10%)。
- 多路径架构:在π0.5、SmolVLA和GR00T中,专家路径编码运动程序,而VLM路径编码目标语义,专家注入导致的行为位移是VLM路径的两倍。
研究意义
该研究揭示了VLA模型中视觉路径的主导作用和语言敏感性的任务依赖性,这对理解多模态模型如何将输入转化为动作具有重要意义。通过揭示视觉路径在动作生成中的关键作用,研究为未来的机器人控制和多模态模型的设计提供了新的视角。此外,研究还表明了任务结构在语言处理中的重要性,这可能影响未来的多模态任务设计。
技术贡献
本文首次系统性地研究了六种不同架构的VLA模型,揭示了视觉路径在动作生成中的主导作用以及语言敏感性的任务依赖性。通过使用激活注入、稀疏自编码器和线性探针等技术,研究展示了多路径架构中功能的分离和专门化。这些发现为多模态模型的设计和调试提供了新的技术手段。
新颖性
这是首次对VLA模型进行如此大规模和系统性的研究,涵盖了从80M到7B参数的模型。研究不仅揭示了视觉路径在动作生成中的主导地位,还首次展示了任务结构对语言敏感性的影响,而非模型设计。这为多模态模型的理解和应用提供了新的视角。
局限性
- 视觉路径的主导地位可能导致模型在处理语言指令时的灵活性不足,特别是在视觉信息不充分的情况下。
- 研究主要集中在特定的任务和环境中,可能无法直接推广到所有类型的多模态任务。
- 虽然研究揭示了视觉路径的主导作用,但对语言路径的深入分析仍然有限。
未来方向
未来的研究可以进一步探索如何在视觉-语言-动作模型中平衡视觉和语言路径的作用,特别是在复杂多变的环境中。此外,可以研究如何在不影响视觉路径主导性的情况下增强语言路径的灵活性和适应性。
AI 总览摘要
视觉-语言-动作(VLA)模型结合了感知、语言和运动控制,旨在通过多模态输入生成动作。然而,这些模型如何将多模态输入转化为动作的机制仍不清楚。现有的解决方案通常依赖于视觉-运动先验,而非真正理解语言指令。
本文研究了六种VLA模型,参数范围从80M到7B,使用激活注入、稀疏自编码器(SAEs)和线性探针等方法。通过394,000多个回合的实验,研究揭示了视觉路径在动作生成中的主导作用。通过将基线激活注入到空提示回合中,模型能够恢复几乎相同的行为,而跨任务注入则将机器人引导至源任务位置,显示出与场景坐标绑定的运动程序。
研究表明,语言敏感性取决于任务结构而非模型设计。当视觉上下文唯一指定任务时,语言被忽略;当多个目标共享一个场景时,语言变得至关重要。在多路径架构中,专家路径编码运动程序,而VLM路径编码目标语义,专家注入导致的行为位移是VLM路径的两倍。
这些发现对理解多模态模型如何将输入转化为动作具有重要意义。通过揭示视觉路径在动作生成中的关键作用,研究为未来的机器人控制和多模态模型的设计提供了新的视角。此外,研究还表明了任务结构在语言处理中的重要性,这可能影响未来的多模态任务设计。
然而,研究也存在一些局限性。视觉路径的主导地位可能导致模型在处理语言指令时的灵活性不足,特别是在视觉信息不充分的情况下。未来的研究可以进一步探索如何在视觉-语言-动作模型中平衡视觉和语言路径的作用,特别是在复杂多变的环境中。
深度分析
研究背景
视觉-语言-动作(VLA)模型是近年来多模态学习领域的重要发展。这些模型结合了视觉编码器、语言骨干和动作解码器,旨在通过多模态输入生成动作。传统上,机器人控制依赖于明确的运动学和控制模型,而VLA模型通过端到端的策略实现了跨对象和指令的泛化。尽管这些模型在实际应用中得到了快速采用,但其如何真正理解和执行语言指令仍然是一个未解之谜。现有的调试方法主要依赖于行为观察,而缺乏对模型内部机制的深入理解。稀疏自编码器(SAEs)等技术被用于从大型语言模型中提取可解释特征,但在VLA模型中的应用仍需验证。
核心问题
VLA模型如何将多模态输入转化为动作的机制尚不清楚。这种不透明性带来了实际挑战:当VLA控制的机器人表现出意外行为时,操作员无法通过原则性的方法诊断故障。现有的调试方法主要依赖于行为观察,而缺乏对模型内部机制的深入理解。特别是在视觉路径和语言路径的作用以及它们如何相互作用方面,仍然存在许多未解之谜。
核心创新
本文的核心创新在于:
- �� 系统性研究:首次对六种不同架构的VLA模型进行大规模和系统性的研究,参数范围从80M到7B。
- �� 视觉路径主导:揭示了视觉路径在动作生成中的主导作用,跨任务注入将机器人引导至源任务位置。
- �� 语言敏感性:首次展示了任务结构对语言敏感性的影响,而非模型设计。
- �� 多路径架构:在多路径架构中,专家路径编码运动程序,而VLM路径编码目标语义。
方法详解
本文采用了以下方法:
- �� 激活注入:将基线激活注入到空提示回合中,以观察视觉路径的主导作用。
- �� 稀疏自编码器(SAEs):用于提取可解释的特征,分析多路径架构中功能的分离和专门化。
- �� 线性探针:用于测试动作信息是否可以从中间表示中线性解码。
- �� 实验设计:在四个基准上进行394,000多个回合的实验,涵盖了从80M到7B参数的六种模型。
实验设计
实验设计包括:
- �� 数据集:使用LIBERO、MetaWorld、SimplerEnv和ALOHA等基准。
- �� 基线:比较不同模型在相同任务下的表现。
- �� 指标:任务成功率、行为位移等。
- �� 超参数:模型参数范围从80M到7B。
- �� 消融研究:分析视觉路径和语言路径的相对重要性。
结果分析
结果分析表明:
- �� 视觉路径主导:在所有架构中,注入基线激活到空提示回合中恢复了几乎相同的行为,跨任务注入将机器人引导至源任务位置,99.8%的X-VLA回合与源轨迹对齐。
- �� 语言敏感性:当视觉上下文唯一指定任务时,语言被忽略;当多个目标共享一个场景时,语言变得至关重要(X-VLA libero_goal:错误提示下成功率从94%降至10%)。
- �� 多路径架构:在π0.5、SmolVLA和GR00T中,专家路径编码运动程序,而VLM路径编码目标语义,专家注入导致的行为位移是VLM路径的两倍。
应用场景
应用场景包括:
- �� 机器人控制:通过视觉路径主导的动作生成,提高机器人在复杂环境中的适应性。
- �� 多模态任务设计:根据任务结构调整语言路径的作用,提高模型的灵活性和适应性。
- �� 视觉-语言模型的调试:通过分析视觉路径和语言路径的相对重要性,提供新的调试手段。
局限与展望
局限与展望包括:
- �� 视觉路径的主导地位可能导致模型在处理语言指令时的灵活性不足,特别是在视觉信息不充分的情况下。
- �� 研究主要集中在特定的任务和环境中,可能无法直接推广到所有类型的多模态任务。
- �� 虽然研究揭示了视觉路径的主导作用,但对语言路径的深入分析仍然有限。
通俗解读 非专业人士也能看懂
想象一下你在厨房里做饭。视觉-语言-动作模型就像一个能看、能听、还能动的机器人助手。它的视觉路径就像你的眼睛,帮助它看到厨房里的每一个细节,比如锅、铲子和食材的位置。语言路径就像你的耳朵,帮助它听懂你说的每一个指令,比如“炒菜”或“加盐”。
在这个模型中,视觉路径是主导的,就像你在做饭时主要依靠眼睛来判断食材是否煮熟。即使你没有明确的指令,只要看到锅里的食材变色,你就知道该翻炒了。
然而,当厨房里有多个任务,比如同时煮汤和炒菜时,语言路径就变得重要了。就像你需要听从指令来决定先做哪一个任务。
这个模型的创新之处在于,它能根据视觉和语言信息自动生成动作,就像一个能自主做饭的机器人助手。虽然它在视觉信息丰富的情况下表现出色,但在语言信息不足时可能会遇到挑战。未来的研究将探索如何在视觉和语言路径之间找到更好的平衡。
简单解释 像给14岁少年讲一样
嘿,小伙伴们!想象一下你有一个超级酷的机器人助手,它能看、能听,还能帮你做事!这个机器人就像一个全能小帮手,它有两个主要的“超级力量”:一个是“视觉路径”,就像它的眼睛,能看到周围的一切;另一个是“语言路径”,就像它的耳朵,能听懂你说的话。
现在,这个机器人的眼睛超级厉害,它能通过看到的东西来决定怎么行动。比如,它看到桌子上有一个苹果,就会自动走过去拿起来。即使你不告诉它,它也知道该怎么做!
不过,有时候它也需要听你的指令,特别是当有很多事情要同时做的时候。比如,你让它先去拿苹果,再去拿香蕉,它就需要用耳朵来听你的指令。
这个机器人助手的厉害之处在于,它能把看到的和听到的结合起来,自动做出聪明的决定。不过,有时候它也会遇到困难,比如当它听不清楚你的指令时。未来,我们希望能让它变得更聪明,更能理解复杂的指令!
术语表
视觉-语言-动作模型 (Vision-Language-Action Model)
一种结合视觉、语言和动作控制的模型,能够通过多模态输入生成动作。
在本文中用于研究多模态输入如何转化为动作。
激活注入 (Activation Injection)
一种技术,通过将一个回合的激活注入到另一个回合中,分析模型的行为变化。
用于研究视觉路径在动作生成中的主导作用。
稀疏自编码器 (Sparse Autoencoder)
一种神经网络,用于将密集的神经激活分解为稀疏、可解释的特征。
用于提取VLA模型中的可解释特征。
线性探针 (Linear Probe)
一种技术,用于测试动作信息是否可以从中间表示中线性解码。
用于分析模型中不同路径的功能分离。
多路径架构 (Multi-Pathway Architecture)
一种模型设计,包含多个功能路径,每个路径专门化于不同的任务。
在本文中用于分析视觉路径和语言路径的相对重要性。
任务结构 (Task Structure)
任务的具体安排和要求,影响模型对语言的敏感性。
用于分析语言路径在不同任务中的作用。
视觉路径 (Visual Pathway)
模型中负责处理视觉信息的路径,主导动作生成。
在本文中被证明是动作生成的关键。
语言路径 (Language Pathway)
模型中负责处理语言信息的路径,影响任务的执行。
在多目标任务中变得重要。
行为位移 (Behavioral Displacement)
由于路径注入或其他干预导致的行为变化。
用于分析多路径架构中路径的相对重要性。
跨任务注入 (Cross-Task Injection)
将一个任务的激活注入到另一个任务中,以研究行为变化。
用于揭示视觉路径的主导作用。
开放问题 这项研究留下的未解疑问
- 1 如何在视觉-语言-动作模型中平衡视觉和语言路径的作用?当前的研究表明,视觉路径在动作生成中占据主导地位,但在语言信息不足的情况下可能会遇到挑战。未来的研究需要探索如何增强语言路径的灵活性和适应性。
- 2 在复杂多变的环境中,视觉路径的主导地位是否会影响模型的适应性?当前的研究主要集中在特定的任务和环境中,未来需要在更广泛的场景中验证这些发现。
- 3 如何在不影响视觉路径主导性的情况下增强语言路径的作用?当前的研究表明,任务结构对语言敏感性有重要影响,但如何在设计上实现这一点仍需探索。
- 4 多路径架构中功能的分离和专门化如何影响模型的整体性能?虽然研究揭示了视觉路径和语言路径的相对重要性,但对其交互作用的深入分析仍然有限。
- 5 在视觉信息不充分的情况下,如何提高模型的语言理解能力?当前的研究主要集中在视觉信息丰富的场景中,未来需要探索在视觉信息不足的情况下如何提高模型的表现。
应用场景
近期应用
机器人控制
通过视觉路径主导的动作生成,提高机器人在复杂环境中的适应性,特别是在工业和服务机器人领域。
多模态任务设计
根据任务结构调整语言路径的作用,提高模型的灵活性和适应性,适用于智能助手和自动驾驶等领域。
视觉-语言模型的调试
通过分析视觉路径和语言路径的相对重要性,提供新的调试手段,帮助开发者更好地理解和优化模型。
远期愿景
智能机器人助手
开发能够在复杂多变环境中自主决策的机器人助手,结合视觉和语言信息,实现更高水平的智能化。
多模态AI系统
构建能够处理多种模态信息的AI系统,应用于医疗、教育和娱乐等领域,实现更自然的人机交互。
原文摘要
Vision-Language-Action (VLA) models combine perception, language, and motor control in a single architecture, yet how they translate multimodal inputs into actions remains poorly understood. We apply activation injection, sparse autoencoders (SAEs), and linear probes to six models spanning 80M--7B parameters across 394,000+ rollout episodes on four benchmarks. The visual pathway dominates action generation across all architectures: injecting baseline activations into null-prompt episodes recovers near-identical behavior, while cross-task injection steers robots toward source-task positions (99.8\% of X-VLA episodes align with the source trajectory), exposing spatially bound motor programs tied to scene coordinates rather than abstract task representations. Language sensitivity depends on task structure, not model design: when visual context uniquely specifies the task, language is ignored; when multiple goals share a scene, language becomes essential (X-VLA \texttt{libero\_goal}: 94\%$\to$10\% under wrong prompts vs.\ \texttt{libero\_object}: 60--100\% regardless). In all three multi-pathway architectures (\pizhalf{}, SmolVLA, GR00T), expert pathways encode motor programs while VLM pathways encode goal semantics ($2\times$ greater behavioral displacement from expert injection), and subspace injection confirms these occupy separable activation subspaces. Per-token SAE processing is essential for action fidelity on most architectures, though mean-pooling improves fidelity on X-VLA. Contrastive identification recovers 82+ manipulation concepts, and causal ablation reveals sensitivity spanning 28--92\% zero-effect rates independent of representation width. We release \textbf{Action Atlas} (https://action-atlas.com) for interactive exploration of VLA representations across all six models.
参考文献 (20)
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success
Moo Jin Kim, Chelsea Finn, Percy Liang
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
Tony Zhao, Vikash Kumar, S. Levine 等
LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models
Senyu Fei, Siyin Wang, Junhao Shi 等
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
Anthony Brohan, Noah Brown, Justice Carbajal 等
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning
Bo Liu, Yifeng Zhu, Chongkai Gao 等
Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts
Michal Golovanevsky, William Rudman, Michael A. Lepori 等
Steering Llama 2 via Contrastive Activation Addition
Nina Rimsky, Nick Gabrieli, Julia Schulz 等
Sparse Autoencoders Find Highly Interpretable Features in Language Models
Hoagy Cunningham, Aidan Ewart, L. Smith 等
Steering Large Language Models using Conceptors: Improving Addition-Based Activation Engineering
Joris Postmus, Steven Abreu
Flow Matching for Generative Modeling
Y. Lipman, Ricky T. Q. Chen, Heli Ben-Hamu 等
Locating and Editing Factual Associations in GPT
Kevin Meng, David Bau, A. Andonian 等
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
Jinliang Zheng, Jianxiong Li, Zhihao Wang 等
Interactive Post-Training for Vision-Language-Action Models
Shuhan Tan, Kairan Dou, Yue Zhao 等
dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought
Junjie Wen, Minjie Zhu, Jiaming Liu 等
VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
Jianke Zhang, Xiaoyu Chen, Qiuyue Wang 等
Code as Policies: Language Model Programs for Embodied Control
Jacky Liang, Wenlong Huang, F. Xia 等
Interpreting CLIP with Hierarchical Sparse Autoencoders
Vladimir Zaigrajew, Hubert Baniecki, P. Biecek
OpenVLA: An Open-Source Vision-Language-Action Model
Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti 等
RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning
Yinpei Dai, Jayjun Lee, Nima Fazeli 等