VLA Foundry: A Unified Framework for Training Vision-Language-Action Models

TL;DR

VLA Foundry:一个统一的视觉-语言-动作模型训练框架,提升多任务桌面操作策略性能。

cs.RO 🔴 高级 2026-04-22 46 次浏览
Jean Mercat Sedrick Keh Kushal Arora Isabella Huang Paarth Shah Haruki Nishimura Shun Iwase Katherine Liu
视觉-语言模型 动作模型 开源框架 多任务学习 机器人操作

核心发现

方法论

VLA Foundry是一个开源框架,统一了大型语言模型(LLM)、视觉语言模型(VLM)和视觉语言动作模型(VLA)的训练流程。该框架提供了从语言预训练到动作专家微调的端到端控制,支持从头开始训练和使用Hugging Face的预训练骨干网络。通过共享的数据加载和训练堆栈,研究人员可以跨模态共同训练、混合数据集,并在不需要拼接不同工具的情况下原型化新架构。

关键结果

  • 结果1:在LBM Eval模拟器上,完全从头开始训练的模型在名义评估设置下表现与之前的闭源工作相当。
  • 结果2:使用预训练的Qwen3-VL骨干网络,模型在多任务桌面操作策略上表现优异,超出基线性能20个百分点。
  • 结果3:通过VLA Foundry训练的多任务模型在16个模拟任务上的表现显著优于之前的闭源多任务模型。

研究意义

VLA Foundry的推出为研究人员提供了一个灵活且可扩展的工具,用于探索和优化视觉-语言-动作模型的训练。它解决了现有开源框架中预训练管道不兼容的问题,允许用户在同一代码库中进行从头开始的训练和预训练骨干网络的初始化。这种统一的训练堆栈使得在探索新训练配方、架构和数据混合时更加实用。

技术贡献

VLA Foundry的技术贡献在于其模块化和可组合性,允许用户通过简单的命令行或YAML更改来交换架构、数据管道和训练配方。它支持Hugging Face的预训练骨干网络,并提供可扩展的分布式训练,支持多节点、多GPU运行。

新颖性

VLA Foundry首次将LLM、VLM和VLA的训练统一在一个代码库中,提供了从语言预训练到动作专家微调的端到端控制。与现有的开源框架相比,它解决了预训练管道不兼容的问题,并提供了更大的灵活性和可扩展性。

局限性

  • 局限1:虽然VLA Foundry支持多任务训练,但在处理数据稀缺的机器人交互数据时仍然面临挑战。
  • 局限2:在某些情况下,使用预训练骨干网络可能会限制模型的灵活性和适应性。
  • 局限3:框架的复杂性可能对新手用户造成一定的学习曲线。

未来方向

未来的研究方向包括进一步优化VLA Foundry的训练效率,探索更多样化的数据集和任务,以及改进框架的用户友好性和可访问性。

AI 总览摘要

VLA Foundry是一个开源框架,旨在统一视觉-语言-动作(VLA)模型的训练流程。现有的开源VLA框架通常专注于动作训练阶段,常常将不兼容的预训练管道拼接在一起。VLA Foundry通过提供从语言预训练到动作专家微调的端到端控制,解决了这一问题。

该框架支持从头开始训练和使用Hugging Face的预训练骨干网络。为了展示其实用性,研究人员训练并发布了两种类型的模型:一种是通过LLM→VLM→VLA管道完全从头开始训练的模型,另一种是基于预训练的Qwen3-VL骨干网络构建的模型。

在LBM Eval模拟器上,完全从头开始训练的模型在名义评估设置下表现与之前的闭源工作相当,而使用Qwen3-VL骨干网络的模型在多任务桌面操作策略上表现优异,超出基线性能20个百分点。

VLA Foundry的推出为研究人员提供了一个灵活且可扩展的工具,用于探索和优化视觉-语言-动作模型的训练。它解决了现有开源框架中预训练管道不兼容的问题,允许用户在同一代码库中进行从头开始的训练和预训练骨干网络的初始化。

尽管VLA Foundry在统一训练流程方面取得了显著进展,但在处理数据稀缺的机器人交互数据时仍然面临挑战。未来的研究方向包括进一步优化训练效率,探索更多样化的数据集和任务,以及改进框架的用户友好性和可访问性。

深度分析

研究背景

近年来,机器人基础模型的进展迅速,许多系统展示了几年前难以想象的能力。随着前沿的快速发展,支持严格研究的工具也必须跟上步伐。许多高影响力的问题——关于数据扩展、骨干预训练以及机器人和非机器人数据之间的相互作用——需要规模(计算、数据等)以及模块化的算法基础设施,允许用户完全控制模型和训练管道的不同部分。然而,大多数现有的代码库要么没有在大规模上进行广泛测试,要么主要集中在模型发布上,因此与特定的算法决策紧密耦合,限制了研究的灵活性。同时,数据稀缺仍然是机器人领域的一个根本瓶颈。机器人交互数据相对于语言和视觉模型使用的数据严重受限,尤其是在多样性和每个标记的信号密度方面。尽管存在这种数据差异,大多数开源VLA框架仍然狭隘地专注于动作训练阶段,将上游数据配方视为固定或超出范围。这种分离是有问题的:在LLM和VLM预训练期间做出的数据决策对下游机器人的性能有直接影响。探索设计空间需要一个将整个管道从预训练到策略学习视为一个可控系统的框架。

核心问题

现有的开源VLA框架通常专注于动作训练阶段,常常将不兼容的预训练管道拼接在一起。这种方法导致了研究灵活性的限制,因为研究人员无法在同一代码库中进行从头开始的训练和预训练骨干网络的初始化。此外,数据稀缺仍然是机器人领域的一个根本瓶颈,机器人交互数据相对于语言和视觉模型使用的数据严重受限,尤其是在多样性和每个标记的信号密度方面。

核心创新

VLA Foundry的核心创新在于其模块化和可组合性,允许用户通过简单的命令行或YAML更改来交换架构、数据管道和训练配方。它支持Hugging Face的预训练骨干网络,并提供可扩展的分布式训练,支持多节点、多GPU运行。通过共享的数据加载和训练堆栈,研究人员可以跨模态共同训练、混合数据集,并在不需要拼接不同工具的情况下原型化新架构。VLA Foundry首次将LLM、VLM和VLA的训练统一在一个代码库中,提供了从语言预训练到动作专家微调的端到端控制。

方法详解

VLA Foundry的设计围绕着对具身模型管道的端到端控制:相同的训练循环、数据抽象和配置接口从语言预训练扩展到视觉语言训练和动作学习。 • 模块化和可组合性:模型、数据管道、编码器和损失处理器通过YAML配置系统按名称实例化。 • 可扩展的分布式训练:支持多节点、多GPU运行,自动梯度累积、混合精度和检查点同步。 • 评估:支持在开放源代码的lbm_eval_oss上进行评估,使用高保真Drake物理引擎模拟机器人和场景动态。 • 统计分析:提供严格的统计分析,通过STEP比较多个策略的成功率。

实验设计

实验设计包括在LBM Eval模拟器上评估两种模型:一种是通过LLM→VLM→VLA管道完全从头开始训练的模型,另一种是基于预训练的Qwen3-VL骨干网络构建的模型。评估包括在16个模拟任务上进行性能比较,任务复杂性和操作模式各异。实验还包括对多任务和单任务训练的消融研究,以及仅模拟和仅真实数据集的子集。

结果分析

在LBM Eval模拟器上,完全从头开始训练的模型在名义评估设置下表现与之前的闭源工作相当,而使用Qwen3-VL骨干网络的模型在多任务桌面操作策略上表现优异,超出基线性能20个百分点。通过VLA Foundry训练的多任务模型在16个模拟任务上的表现显著优于之前的闭源多任务模型。实验结果表明,使用更强大的VLM骨干网络可以显著提升VLA的性能。

应用场景

VLA Foundry的应用场景包括机器人操作策略的开发和优化,特别是在多任务桌面操作中。它为研究人员提供了一个灵活且可扩展的工具,用于探索和优化视觉-语言-动作模型的训练。该框架还可以用于其他需要多模态数据集成和跨模态训练的领域,如自动驾驶和人机交互。

局限与展望

尽管VLA Foundry在统一训练流程方面取得了显著进展,但在处理数据稀缺的机器人交互数据时仍然面临挑战。此外,使用预训练骨干网络可能会限制模型的灵活性和适应性。框架的复杂性可能对新手用户造成一定的学习曲线。未来的研究方向包括进一步优化训练效率,探索更多样化的数据集和任务,以及改进框架的用户友好性和可访问性。

通俗解读 非专业人士也能看懂

想象一下你在厨房里做饭。你需要一个食谱(语言模型),一个视觉参考(视觉模型),以及实际的烹饪动作(动作模型)。VLA Foundry就像一个智能厨房助手,它不仅能帮你找到食谱,还能告诉你如何根据视觉提示调整烹饪步骤,并在实际操作中提供指导。这个助手可以从头开始学习新的食谱,也可以利用已有的食谱进行改进。它的特别之处在于,它能将所有这些步骤统一在一个系统中,无需你在不同的工具之间切换。就像你在厨房里有一个万能的助手,它能帮助你从选择食材到最后的摆盘,确保每一步都完美无缺。

简单解释 像给14岁少年讲一样

嘿,小伙伴!想象一下你在玩一个超级复杂的游戏,这个游戏需要你同时使用语言、视觉和动作技能。VLA Foundry就像是一个超级智能的游戏助手,它能帮你在游戏中做出最佳决策。比如,它能帮你理解游戏中的对话(语言模型),识别游戏中的物体(视觉模型),并指导你如何操作角色(动作模型)。这个助手不仅能从头开始学习新的技能,还能利用已有的经验进行改进。就像你有一个无所不能的游戏伙伴,随时随地为你提供帮助,让你在游戏中无往不利!

术语表

视觉-语言模型 (Vision-Language Model)

一种结合视觉和语言信息进行任务处理的模型,通常用于图像描述、视觉问答等任务。

VLA Foundry中用于跨模态表示学习的核心组件。

动作模型 (Action Model)

用于预测和生成机器人操作动作的模型,通常结合视觉和语言信息进行训练。

VLA Foundry中用于训练机器人操作策略的关键组件。

开源框架 (Open-Source Framework)

一种公开提供代码和资源的框架,允许用户自由使用、修改和分发。

VLA Foundry作为一个开源框架,提供了统一的训练流程。

多任务学习 (Multi-Task Learning)

一种同时学习多个相关任务的机器学习方法,旨在通过共享信息提高模型的泛化能力。

VLA Foundry支持多任务训练,以提高模型在不同任务上的性能。

机器人操作 (Robotic Manipulation)

涉及机器人与物体交互的任务,包括抓取、移动和操作物体。

VLA Foundry用于训练和优化机器人操作策略。

Hugging Face

一个提供预训练模型和工具的开源平台,广泛用于自然语言处理和计算机视觉任务。

VLA Foundry支持使用Hugging Face的预训练骨干网络。

分布式训练 (Distributed Training)

一种在多个计算节点上并行训练模型的方法,以提高训练效率和模型规模。

VLA Foundry支持可扩展的分布式训练,支持多节点、多GPU运行。

数据稀缺 (Data Scarcity)

指在某些领域中,训练模型所需的数据量不足的问题,可能导致模型性能下降。

VLA Foundry在处理机器人交互数据时面临数据稀缺的挑战。

模块化设计 (Modular Design)

一种设计方法,将系统分解为独立的模块,以提高灵活性和可扩展性。

VLA Foundry的模块化设计允许用户轻松交换架构和训练配方。

端到端控制 (End-to-End Control)

指在一个系统中,从输入到输出的所有步骤都由同一框架控制和管理。

VLA Foundry提供从语言预训练到动作专家微调的端到端控制。

开放问题 这项研究留下的未解疑问

  • 1 如何在数据稀缺的情况下提高机器人操作策略的性能?现有的方法在处理多样性和信号密度有限的数据时面临挑战,需要开发新的数据增强和生成技术。
  • 2 如何进一步优化VLA Foundry的训练效率?虽然框架支持分布式训练,但在大规模数据集和模型上仍然存在性能瓶颈,需要探索新的并行化和优化技术。
  • 3 如何提高VLA Foundry的用户友好性?框架的复杂性可能对新手用户造成一定的学习曲线,需要开发更直观的界面和教程。
  • 4 如何在VLA Foundry中集成更多样化的数据集和任务?现有的数据集和任务可能不足以全面评估模型的性能,需要开发新的数据集和任务。
  • 5 如何在VLA Foundry中实现更强大的跨模态学习?现有的跨模态学习方法可能不足以充分利用多模态数据,需要开发新的表示学习和对齐技术。

应用场景

近期应用

机器人操作策略优化

VLA Foundry可用于开发和优化机器人操作策略,特别是在多任务桌面操作中。

自动驾驶系统开发

通过集成视觉、语言和动作模型,VLA Foundry可用于开发更智能的自动驾驶系统。

人机交互系统增强

VLA Foundry可用于开发更自然和高效的人机交互系统,提升用户体验。

远期愿景

智能机器人助手

通过不断优化和扩展,VLA Foundry有望成为开发智能机器人助手的基础框架,支持更复杂和多样化的任务。

跨模态人工智能系统

VLA Foundry的统一训练框架为开发更强大的跨模态人工智能系统提供了可能,推动人工智能技术的进一步发展。

原文摘要

We present VLA Foundry, an open-source framework that unifies LLM, VLM, and VLA training in a single codebase. Most open-source VLA efforts specialize on the action training stage, often stitching together incompatible pretraining pipelines. VLA Foundry instead provides a shared training stack with end-to-end control, from language pretraining to action-expert fine-tuning. VLA Foundry supports both from-scratch training and pretrained backbones from Hugging Face. To demonstrate the utility of our framework, we train and release two types of models: the first trained fully from scratch through our LLM-->VLM-->VLA pipeline and the second built on the pretrained Qwen3-VL backbone. We evaluate closed-loop policy performance of both models on LBM Eval, an open-data, open-source simulator. We also contribute usability improvements to the simulator and the STEP analysis tools for easier public use. In the nominal evaluation setting, our fully-open from-scratch model is on par with our prior closed-source work and substituting in the Qwen3-VL backbone leads to a strong multi-task table top manipulation policy outperforming our baseline by a wide margin. The VLA Foundry codebase is available at https://github.com/TRI-ML/vla_foundry and all multi-task model weights are released on https://huggingface.co/collections/TRI-ML/vla-foundry. Additional qualitative videos are available on the project website https://tri-ml.github.io/vla_foundry.

cs.RO cs.AI cs.CV cs.LG cs.SE

参考文献 (20)

A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation

Tri Lbm Team, Jose Barreiros, Andrew Beaulieu 等

2025 79 引用 ⭐ 高影响力 查看解读 →

Intelligence

1836 2219 引用 ⭐ 高影响力

Computing Extremely Accurate Quantiles Using t-Digests

Ted Dunning, Otmar Ertl

2019 83 引用 ⭐ 高影响力 查看解读 →

Significance tests for 2 X 2 tables.

G. Barnard

1947 374 引用

Scaling Laws for Neural Language Models

J. Kaplan, Sam McCandlish, T. Henighan 等

2020 7595 引用 查看解读 →

DataComp: In search of the next generation of multimodal datasets

S. Gadre, Gabriel Ilharco, Alex Fang 等

2023 660 引用 查看解读 →

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

Siddharth Karamcheti, Suraj Nair, A. Balakrishna 等

2024 299 引用 查看解读 →

Ray: A Distributed Framework for Emerging AI Applications

Philipp Moritz, Robert Nishihara, Stephanie Wang 等

2017 1597 引用 查看解读 →

Flow Matching for Generative Modeling

Y. Lipman, Ricky T. Q. Chen, Heli Ben-Hamu 等

2022 4030 引用 查看解读 →

Visual Instruction Tuning

Haotian Liu, Chunyuan Li, Qingyang Wu 等

2023 8965 引用 查看解读 →

BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions

Christopher Clark, Kenton Lee, Ming-Wei Chang 等

2019 2293 引用 查看解读 →

DINOv3

Oriane Sim'eoni, Huy V. Vo, Maximilian Seitzer 等

2025 612 引用 查看解读 →

An Adversarial Winograd Schema Challenge at Scale

Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula 等

2019 2986 引用

LLM360: Towards Fully Transparent Open-Source LLMs

Zhengzhong Liu, Aurick Qiao, Willie Neiswanger 等

2023 106 引用 查看解读 →

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

Tony Zhao, Vikash Kumar, S. Levine 等

2023 1533 引用 查看解读 →

OpenVLA: An Open-Source Vision-Language-Action Model

Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti 等

2024 1962 引用 查看解读 →

HellaSwag: Can a Machine Really Finish Your Sentence?

Rowan Zellers, Ari Holtzman, Yonatan Bisk 等

2019 3966 引用 查看解读 →

Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge

Peter Clark, Isaac Cowhey, Oren Etzioni 等

2018 4402 引用 查看解读 →

DataComp-LM: In search of the next generation of training sets for language models

Jeffrey Li, Alex Fang, G. Smyrnis 等

2024 284 引用 查看解读 →

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

M. Shoeybi, M. Patwary, Raul Puri 等

2019 2674 引用 查看解读 →