Sparse Autoencoders Reveal Interpretable and Steerable Features in VLA Models

TL;DR

稀疏自编码器揭示VLA模型中的可解释和可操控特征，提升模型在LIBERO基准上的泛化能力。

cs.RO 🔴 高级 2026-03-20 50 次浏览

Aiden Swann Lachlain McGranahan Hugo Buurmeijer Monroe Kennedy Mac Schwager

稀疏自编码器 VLA模型可解释性机器人学习泛化能力

核心发现

方法论

本文采用稀疏自编码器（SAE）对视觉-语言-动作（VLA）模型的隐藏层激活进行训练，从而揭示模型计算的稀疏字典特征。这些特征被用于区分模型的记忆化序列与可解释的运动原语和语义属性。通过在LIBERO基准上的操控实验验证了这些特征的有效性，并提出了一种度量标准来分类特征的可泛化性。

关键结果

结果1：在LIBERO基准上，操控通用特征能够引发与其语义意义一致的行为，并可跨任务和场景应用，显示出VLA模型在任务和场景间学习可泛化特征的潜力。
结果2：在小型机器人数据集上的监督微调会显著放大记忆化，而在更大、更多样化的数据集（如DROID）上训练或使用知识隔离则能促进更通用的特征。
结果3：通过稀疏自编码器提取的特征在DROID数据集上显示出较高的场景和任务多样性，证明了其在更大规模数据集上的有效性。

研究意义

该研究首次提供了VLA模型在任务和场景间学习可泛化特征的机制证据，揭示了稀疏自编码器在理解和操控复杂模型中的潜力。通过对VLA模型的内在机制进行深入分析，该研究为未来的机器人学习研究提供了新的视角，特别是在提升模型的泛化能力和可解释性方面。

技术贡献

本文的技术贡献在于使用稀疏自编码器揭示了VLA模型中的可解释特征，并通过操控实验验证了这些特征对机器人行为的因果影响。这种方法不仅提供了对模型内部机制的深刻理解，还为未来的模型设计和优化提供了新的思路。

新颖性

本研究首次将稀疏自编码器应用于VLA模型的残差流，揭示了模型中的可解释特征，并通过操控实验验证了这些特征的可操控性。这一创新为理解和优化复杂模型提供了新的工具和方法。

局限性

局限1：在小型数据集上的监督微调容易导致模型的记忆化，而非技能的组合学习，这限制了模型的泛化能力。
局限2：尽管DROID数据集较大，但与语言模型的训练数据集相比仍然较小，场景和任务的多样性有限。
局限3：稀疏自编码器的训练和特征分类需要大量计算资源，可能限制其在资源受限环境中的应用。

未来方向

未来的研究方向包括探索更大规模和多样化的数据集，以进一步提升模型的泛化能力。此外，可以研究如何在资源受限环境中高效地训练和应用稀疏自编码器，以及如何将这一方法应用于其他类型的模型和任务。

AI 总览摘要

视觉-语言-动作（VLA）模型在机器人操作领域展现出广泛的应用潜力，但其泛化能力仍然存在不一致性。现有的模型在特定设置下表现出色，但在面对新物体、场景和指令时，经过微调的变体往往表现不佳。为了深入理解VLA模型的内部机制，本文采用稀疏自编码器（SAE）对模型的隐藏层激活进行训练，揭示了模型计算的稀疏字典特征。

研究发现，大多数提取的SAE特征对应于特定训练演示的记忆化序列。然而，一些特征对应于可解释的、通用的和可操控的运动原语和语义属性，为VLA的泛化能力提供了有希望的前景。研究提出了一种度量标准，用于根据特征是否代表可泛化的可转移原语或特定情节的记忆化进行分类。

通过在LIBERO基准上的操控实验，验证了这些发现。研究表明，单个SAE特征对机器人行为具有因果影响。操控通用特征能够引发与其语义意义一致的行为，并可跨任务和场景应用。这项工作首次提供了VLA模型在任务和场景间学习可泛化特征的机制证据。

研究观察到，在小型机器人数据集上的监督微调会显著放大记忆化，而在更大、更多样化的数据集（如DROID）上训练或使用知识隔离则能促进更通用的特征。为了促进未来在VLA机制可解释性方面的研究，研究提供了一个开源代码库和用户友好的界面，用于激活收集、SAE训练和特征操控。

尽管研究揭示了VLA模型的可解释性和操控性，但在小型数据集上的监督微调容易导致模型的记忆化，而非技能的组合学习，这限制了模型的泛化能力。未来的研究方向包括探索更大规模和多样化的数据集，以进一步提升模型的泛化能力。

深度分析

研究背景

近年来，机器人操作领域的研究越来越多地受到通用策略的影响，这些策略将视觉输入、自然语言指令和连续控制输出结合到一个单一的学习系统中。视觉-语言-动作（VLA）模型是这种策略架构的主要例子。VLA模型通常将预训练的视觉语言模型（VLM）作为骨干，与单独的动作解码头结合。这些模型在大型、异构、跨化身的机器人数据集上进行预训练，如OpenX Embodiment或DROID。使用VLA模型的动机很简单。大型语言模型（LLMs）和视觉语言模型（VLMs）在各种任务中实现了令人印象深刻的泛化，特别是这些前沿模型学习了丰富的表示，使得跨文本、物体和空间关系的泛化成为可能。VLA试图通过VLM骨干利用这种广泛的语义-视觉知识，以获得对多种机器人任务的广泛泛化。

核心问题

尽管VLA模型在某些设置下表现出色，但其泛化能力仍然存在不一致性。通常，VLA模型必须在特定任务或化身上进行微调才能表现良好。尽管在LIBERO或Robocasa等基准上取得了快速的实证进展，但这些模型在监督微调期间往往会失去语言跟随和泛化能力。此外，LIBERO-PRO等论文表明，在原始协议下成功率超过90%的模型在系统性扰动下可能崩溃至接近零，这意味着这些策略可能依赖于对动作序列和环境布局的死记硬背，而不是对新感知输入的泛化。

核心创新

为了更好地理解VLA模型的内部机制，本文采用稀疏自编码器（SAE）对模型的隐藏层激活进行训练，揭示了模型计算的稀疏字典特征。这些特征被用于区分模型的记忆化序列与可解释的运动原语和语义属性。研究提出了一种度量标准，用于根据特征是否代表可泛化的可转移原语或特定情节的记忆化进行分类。通过在LIBERO基准上的操控实验，验证了这些发现。

方法详解

�� 采用稀疏自编码器（SAE）对VLA模型的隐藏层激活进行训练，揭示模型计算的稀疏字典特征。
�� 提出了一种度量标准，用于根据特征是否代表可泛化的可转移原语或特定情节的记忆化进行分类。
�� 通过在LIBERO基准上的操控实验，验证了这些发现。
�� 提供了一个开源代码库和用户友好的界面，用于激活收集、SAE训练和特征操控。

实验设计

实验设计包括在LIBERO和DROID数据集上进行操控实验，以验证稀疏自编码器提取的特征的有效性。实验采用了多种基线模型和度量标准，包括特征的激活模式、任务和场景的多样性以及特征的可解释性和操控性。实验还进行了消融研究，以评估不同特征对模型行为的影响。

结果分析

实验结果表明，操控通用特征能够引发与其语义意义一致的行为，并可跨任务和场景应用，显示出VLA模型在任务和场景间学习可泛化特征的潜力。此外，研究发现，在小型机器人数据集上的监督微调会显著放大记忆化，而在更大、更多样化的数据集（如DROID）上训练或使用知识隔离则能促进更通用的特征。

应用场景

该研究的应用场景包括机器人操作任务中的特征操控和模型优化。通过揭示VLA模型中的可解释特征，研究为提高机器人操作的泛化能力和可靠性提供了新的工具和方法。此外，研究的开源代码库和用户友好界面为未来的研究提供了便利。

局限与展望

尽管研究揭示了VLA模型的可解释性和操控性，但在小型数据集上的监督微调容易导致模型的记忆化，而非技能的组合学习，这限制了模型的泛化能力。此外，稀疏自编码器的训练和特征分类需要大量计算资源，可能限制其在资源受限环境中的应用。未来的研究方向包括探索更大规模和多样化的数据集，以进一步提升模型的泛化能力。

通俗解读非专业人士也能看懂

想象一下，你在厨房里做饭。你有一个食谱，它告诉你如何一步步做出美味的菜肴。这个食谱就像是一个机器人模型，它需要知道如何处理不同的食材和步骤。现在，假设你有一个助手，他能帮你更好地理解食谱。他会告诉你哪些步骤是关键的，哪些步骤可以灵活调整。这就是稀疏自编码器在机器人模型中的作用。它帮助模型识别出哪些特征是重要的，哪些特征可以在不同的任务和场景中应用。通过这种方式，模型可以更好地适应新的任务和环境，而不是仅仅依赖于过去的经验。这就像是你的助手帮助你在不同的厨房中做出美味的菜肴，而不仅仅是在你熟悉的厨房中。

简单解释像给14岁少年讲一样

嘿，小伙伴！你知道机器人是怎么学会做事情的吗？就像你在学校学习新知识一样，机器人也需要学习如何在不同的环境中完成任务。想象一下，你在玩一个游戏，你需要记住每个关卡的规则和技巧。机器人也是这样，它们需要记住过去的经验来完成任务。但有时候，它们会太依赖这些经验，导致在新环境中表现不佳。为了帮助机器人更好地适应新环境，科学家们发明了一种叫做稀疏自编码器的工具。这个工具就像是一个超级助手，帮助机器人识别哪些经验是重要的，哪些可以灵活应用。这样，机器人就能在不同的任务和场景中表现出色，就像你在不同的游戏中都能取得好成绩一样！

术语表

Sparse Autoencoder (稀疏自编码器)

一种用于学习数据稀疏表示的无监督学习技术，通过将密集激活投影到高维稀疏潜在空间来解开重叠的表示。

在论文中用于揭示VLA模型中的可解释特征。

Vision-Language-Action Model (视觉-语言-动作模型)

一种结合视觉输入、自然语言指令和连续控制输出的机器人学习模型，旨在实现广泛的任务泛化。

研究的主要对象，用于机器人操作任务。

LIBERO Benchmark (LIBERO基准)

一种用于评估机器人学习模型的标准基准，包含多种任务和场景。

用于验证稀疏自编码器提取特征的有效性。

DROID Dataset (DROID数据集)

一个大型、异构的机器人数据集，包含多种任务和场景，用于训练和评估机器人学习模型。

用于训练和评估VLA模型的泛化能力。

Knowledge Insulation (知识隔离)

一种防止微调过程降解内部模型表示的方法，确保VLM骨干保留语义信息。

用于促进VLA模型的泛化能力。

Mechanistic Interpretability (机制可解释性)

一种用于理解学习模型内部工作原理的工具集，通过揭示模型的可解释特征来提高其透明度。

用于分析VLA模型的内部机制。

Feature Steering (特征操控)

通过操控特定特征来预测性地调节模型行为的过程。

用于验证稀疏自编码器提取特征的因果影响。

Supervised Fine-Tuning (监督微调)

在特定任务或数据集上对预训练模型进行微调的过程，以提高其性能。

研究中观察到在小型数据集上会放大记忆化。

Residual Stream (残差流)

模型中的一种数据流，包含模型计算的中间结果。

稀疏自编码器应用于VLA模型的残差流以揭示可解释特征。

Generalization (泛化能力)

模型在新任务和场景中表现良好的能力，不依赖于特定的训练数据。

研究的主要目标之一，通过稀疏自编码器提升VLA模型的泛化能力。

开放问题这项研究留下的未解疑问

1 开放问题1：如何在资源受限环境中高效地训练和应用稀疏自编码器？当前的方法需要大量计算资源，限制了其在实际应用中的广泛使用。
2 开放问题2：如何进一步提升VLA模型在更大规模和多样化数据集上的泛化能力？尽管DROID数据集较大，但与语言模型的训练数据集相比仍然较小，场景和任务的多样性有限。
3 开放问题3：如何在不依赖于特定训练数据的情况下，确保模型能够在新任务和场景中表现良好？目前的VLA模型在小型数据集上的监督微调容易导致模型的记忆化。
4 开放问题4：如何在不降低模型性能的情况下，提升其可解释性和透明度？稀疏自编码器揭示了模型中的可解释特征，但其训练和应用仍然具有挑战性。
5 开放问题5：如何将稀疏自编码器的方法应用于其他类型的模型和任务？目前的研究主要集中在VLA模型上，其他领域的应用潜力尚待探索。
6 开放问题6：如何在不影响模型泛化能力的情况下，优化其计算效率？当前的方法需要大量计算资源，可能限制其在实际应用中的广泛使用。
7 开放问题7：如何在不依赖于特定场景的情况下，确保模型能够在不同环境中表现出色？目前的VLA模型在特定场景下表现良好，但在新环境中可能表现不佳。

应用场景

近期应用

机器人操作优化

通过揭示VLA模型中的可解释特征，研究为提高机器人操作的泛化能力和可靠性提供了新的工具和方法。

模型设计与优化

稀疏自编码器的方法为未来的模型设计和优化提供了新的思路，特别是在提升模型的泛化能力和可解释性方面。

开源代码库

研究提供的开源代码库和用户友好界面为未来的研究提供了便利，促进了VLA机制可解释性方面的研究。

远期愿景

智能机器人发展

通过提升VLA模型的泛化能力和可解释性，研究为智能机器人的发展提供了新的方向，特别是在复杂任务和环境中的应用。

跨领域应用

稀疏自编码器的方法具有广泛的应用潜力，可以应用于其他类型的模型和任务，推动跨领域的技术进步。

原文摘要

Vision-Language-Action (VLA) models have emerged as a promising approach for general-purpose robot manipulation. However, their generalization is inconsistent: while these models can perform impressively in some settings, fine-tuned variants often fail on novel objects, scenes, and instructions. We apply mechanistic interpretability techniques to better understand the inner workings of VLA models. To probe internal representations, we train Sparse Autoencoders (SAEs) on hidden layer activations of the VLA. SAEs learn a sparse dictionary whose features act as a compact, interpretable basis for the model's computation. We find that the large majority of extracted SAE features correspond to memorized sequences from specific training demonstrations. However, some features correspond to interpretable, general, and steerable motion primitives and semantic properties, offering a promising glimpse toward VLA generalizability. We propose a metric to categorize features according to whether they represent generalizable transferable primitives or episode-specific memorization. We validate these findings through steering experiments on the LIBERO benchmark. We show that individual SAE features causally influence robot behavior. Steering general features induces behaviors consistent with their semantic meaning and can be applied across tasks and scenes. This work provides the first mechanistic evidence that VLAs can learn generalizable features across tasks and scenes. We observe that supervised fine-tuning on small robotics datasets disproportionately amplifies memorization. In contrast, training on larger, more diverse datasets (e.g., DROID) or using knowledge insulation promotes more general features. We provide an open-source codebase and user-friendly interface for activation collection, SAE training, and feature steering. Our project page is located at http://drvla.github.io

cs.RO

参考文献 (20)

LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning

Bo Liu, Yifeng Zhu, Chongkai Gao 等

2023 662 引用 ⭐ 高影响力查看解读 →

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

Danny Driess, Jost Tobias Springenberg, Brian Ichter 等

2025 65 引用 ⭐ 高影响力查看解读 →

LIBERO-PRO: Towards Robust and Fair Evaluation of Vision-Language-Action Models Beyond Memorization

Xueyang Zhou, Yangming Xu, Guiyao Tie 等

2025 23 引用 ⭐ 高影响力查看解读 →

Scaling and evaluating sparse autoencoders

Leo Gao, Tom Dupr'e la Tour, Henk Tillman 等

2024 363 引用 ⭐ 高影响力查看解读 →

Visual Instruction Tuning

Haotian Liu, Chunyuan Li, Qingyang Wu 等

2023 8509 引用查看解读 →

RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

Soroush Nasiriany, Abhiram Maddukuri, Lance Zhang 等

2024 253 引用查看解读 →

Open X-Embodiment: Robotic Learning Datasets and RT-X Models : Open X-Embodiment Collaboration0

A. Padalkar, A. Pooley, Ajinkya Jain 等

2023 851 引用查看解读 →

DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Alexander Khazatsky, Karl Pertsch, S. Nair 等

2024 609 引用查看解读 →

Sparse Autoencoders Find Highly Interpretable Features in Language Models

Hoagy Cunningham, Aidan Ewart, L. Smith 等

2023 948 引用查看解读 →

Gemma 2: Improving Open Language Models at a Practical Size

Gemma Team Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa 等

2024 1773 引用查看解读 →

Probing a Vision-Language-Action Model for Symbolic States and Integration into a Cognitive Architecture

Hong Lu, Hengxu Li, Prithviraj Singh Shahani 等

2025 7 引用查看解读 →

Mechanistic interpretability for steering vision-language-action models

Bear Häon, Kaylene C. Stocking, Ian Chuang 等

2025 6 引用查看解读 →

π0.5: a Vision-Language-Action Model with Open-World Generalization

Physical Intelligence, Kevin Black, Noah Brown 等

2025 637 引用查看解读 →

GPT-3: Its Nature, Scope, Limits, and Consequences

L. Floridi, Massimo Chiriatti

2020 2295 引用

Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations

Shresth Grover, Akshay Gopalkrishnan, Bo Ai 等

2025 9 引用查看解读 →

Building Production-Ready Probes For Gemini

J'anos Kram'ar, Joshua Engels, Zheng Wang 等

2026 5 引用查看解读 →

OpenVLA: An Open-Source Vision-Language-Action Model

Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti 等

2024 1817 引用查看解读 →

π0: A Vision-Language-Action Flow Model for General Robot Control

Kevin Black, Noah Brown, Danny Driess 等

2024 1315 引用查看解读 →

Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

Mateusz Pach, Shyamgopal Karthik, Quentin Bouniot 等

2025 25 引用查看解读 →

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky 等

2025 11 引用查看解读 →

Sparse Autoencoders Reveal Interpretable and Steerable Features in VLA Models

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Sparse Autoencoder (稀疏自编码器)

Vision-Language-Action Model (视觉-语言-动作模型)

LIBERO Benchmark (LIBERO基准)

DROID Dataset (DROID数据集)

Knowledge Insulation (知识隔离)

Mechanistic Interpretability (机制可解释性)

Feature Steering (特征操控)

Supervised Fine-Tuning (监督微调)

Residual Stream (残差流)

Generalization (泛化能力)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

机器人操作优化

模型设计与优化

开源代码库

远期愿景

智能机器人发展

跨领域应用

原文摘要

参考文献 (20)

相关论文

Passage-Aware Structural Mapping for RGB-D Visual SLAM

Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

Pushing Radar Odometry Beyond the Pavement: Current Capabilities and Challenges

Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations

Computational Design and Co-Robotic Fabrication for Material Reuse in Architecture

Guiding Vector Field Generation via Score-based Diffusion Model

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问