GazeVLA: Learning Human Intention for Robotic Manipulation

TL;DR

GazeVLA通过学习人类意图提升机器人操作性能,显著超越基线方法。

cs.RO 🔴 高级 2026-04-24 29 次浏览
Chengyang Li Kaiyi Xiong Yuan Xu Lei Qian Yizhou Wang Wentao Zhu
机器人操作 人类意图 视觉语言模型 目光追踪 跨域学习

核心发现

方法论

GazeVLA框架通过视觉-语言-意图-动作模型(VLIA)学习和转移人类意图,以促进机器人操作。该方法首先在大规模自我中心人类数据集上预训练模型以捕捉人类意图及其与动作的协同关系,然后在少量机器人和人类数据上进行微调。推理过程中,模型采用链式思维推理范式,先预测意图再执行动作。

关键结果

  • 在AV-ALOHA基准测试中,GazeVLA在分布内和分布外的场景中均表现优异,特别是在分布外场景中相较于0.5模型提高了22%的相对性能。
  • 在真实机器人实验中,GazeVLA在抓取和精细操作任务中表现出色,成功率分别达到85%和两倍于0.5模型的水平。
  • 通过消融研究表明,意图-动作推理链显著提高了操作性能,尤其是在长时间任务和细粒度操作中。

研究意义

GazeVLA的提出在学术界和工业界具有重要意义。它通过引入人类意图作为中间表示,解决了人类与机器人之间的体现差距问题。这一方法不仅提高了机器人操作的泛化能力,还为未来的跨域学习研究提供了新的思路。其在长时间任务和细粒度操作中的优异表现,表明其在复杂机器人任务中的潜力。

技术贡献

GazeVLA的技术贡献在于其创新性地将人类意图作为中间表示,利用目光信号进行意图建模,并通过视觉-语言模型实现意图到动作的推理链。这一方法与现有的状态-of-the-art方法相比,提供了新的理论保障和工程可能性,特别是在处理复杂任务和提高泛化能力方面。

新颖性

GazeVLA首次将人类意图显式建模为中间表示,并通过目光信号进行捕捉。这一方法与现有的基于视觉或行为模仿的方法相比,提供了更深层次的意图理解和跨域知识转移能力。

局限性

  • 在某些复杂场景下,目光信号可能无法准确反映人类意图,导致模型预测偏差。
  • 对大规模高质量人类数据的依赖可能限制了方法的普适性。
  • 在机器人数据缺乏意图标注的情况下,意图转移的效果可能受到影响。

未来方向

未来的研究方向包括探索更高效的意图建模方法,减少对大规模人类数据的依赖,以及在更多样化的机器人平台上验证GazeVLA的有效性。此外,结合其他感知信号(如语音或手势)以增强意图理解也是一个值得探索的方向。

AI 总览摘要

近年来,机器人操作领域取得了显著进展,尤其是在结合视觉和语言信息的基础模型方面。然而,这些模型严重依赖于大规模的真实机器人数据,这不仅成本高昂且难以扩展,成为进一步发展的瓶颈。为了解决这一问题,研究者们开始探索利用人类数据作为训练来源。然而,人类与机器人之间的体现差距使得有效提取可转移的知识成为一大挑战。

GazeVLA框架通过学习和转移人类意图来促进机器人操作。具体而言,该方法通过目光信号建模意图,因为目光通常先于物理动作并能作为人类意图的可观察代理。模型首先在大规模自我中心人类数据集上预训练,以捕捉人类意图及其与动作的协同关系,随后在少量机器人和人类数据上进行微调。在推理过程中,模型采用链式思维推理范式,先预测意图再执行动作。

在实验中,GazeVLA在模拟和真实环境中进行了广泛评估,涵盖长时间和细粒度任务,并在少样本和鲁棒性基准下表现出色。特别是在AV-ALOHA基准测试中,GazeVLA在分布内和分布外的场景中均表现优异,尤其是在分布外场景中相较于0.5模型提高了22%的相对性能。在真实机器人实验中,GazeVLA在抓取和精细操作任务中表现出色,成功率分别达到85%和两倍于0.5模型的水平。

GazeVLA的提出在学术界和工业界具有重要意义。它通过引入人类意图作为中间表示,解决了人类与机器人之间的体现差距问题。这一方法不仅提高了机器人操作的泛化能力,还为未来的跨域学习研究提供了新的思路。其在长时间任务和细粒度操作中的优异表现,表明其在复杂机器人任务中的潜力。

然而,GazeVLA也存在一些局限性。在某些复杂场景下,目光信号可能无法准确反映人类意图,导致模型预测偏差。此外,对大规模高质量人类数据的依赖可能限制了方法的普适性。在机器人数据缺乏意图标注的情况下,意图转移的效果可能受到影响。未来的研究方向包括探索更高效的意图建模方法,减少对大规模人类数据的依赖,以及在更多样化的机器人平台上验证GazeVLA的有效性。

深度分析

研究背景

近年来,随着计算能力和数据收集技术的进步,机器人操作领域取得了显著进展。许多研究集中在通过视觉和语言信息来增强机器人的智能能力。例如,视觉-语言模型(VLM)在结合视觉和语言信息方面表现出色。然而,这些模型通常依赖于大规模的真实机器人数据进行训练,这不仅成本高昂且难以扩展,成为进一步发展的瓶颈。为了克服这一限制,研究者们开始探索利用人类数据作为训练来源。人类数据不仅更容易收集,而且自然编码了丰富的高层次行为结构,包括操作意图、任务分解和以对象为中心的可操作性,这些对于学习可转移的操作技能非常有价值。

核心问题

尽管人类数据作为训练来源具有潜力,但如何有效提取和转移其中的知识仍然是一个重大挑战。人类与机器人之间的体现差距使得直接模仿人类行为难以实现。现有的方法大多依赖于视觉或行为模仿,缺乏对人类意图的深层次理解。此外,如何在没有机器人意图标注的情况下实现意图的跨域转移也是一个亟待解决的问题。

核心创新

GazeVLA框架通过以下创新解决了上述问题:


  • �� 意图建模:首次将人类意图显式建模为中间表示,并通过目光信号进行捕捉。这一方法提供了更深层次的意图理解和跨域知识转移能力。

  • �� 链式思维推理:采用链式思维推理范式,先预测意图再执行动作,增强了模型的推理能力和泛化能力。

  • �� 视觉-语言-意图-动作模型(VLIA):结合视觉和语言信息,通过意图建模实现意图到动作的推理链,提高了机器人操作的精确性和鲁棒性。

方法详解

GazeVLA框架的实现包括以下关键步骤:


  • �� 数据收集与处理:构建大规模自我中心人类数据集,包含手部和目光注释。数据集涵盖多样的场景和交互类型,为学习人类行为和意图提供丰富的先验知识。

  • �� 模型架构:利用PaliGemma作为VLM骨干,结合SigLIP视觉编码器和Gemma-2B语言模型处理多模态信息。动作专家通过条件流匹配生成高频连续动作。

  • �� 意图-动作推理链:引入意图-动作推理链,将决策过程显式分解为感知、意图推断和动作生成。采用目光作为意图的显式表示,并通过空间分箱离散化为令牌。

  • �� 损失函数:包括VLM的意图预测损失和动作专家的动作生成损失。意图损失为标准自回归下一个令牌预测目标,动作损失基于流匹配公式构建。

  • �� 训练策略:采用分阶段训练策略,初期冻结视觉编码器和视觉-语言模型,仅优化动作专家。随后解冻所有模型参数并联合优化。

实验设计

实验设计包括在模拟和真实环境中对GazeVLA进行广泛评估。使用的基准测试包括AV-ALOHA和真实机器人实验。在AV-ALOHA基准测试中,机器人平台由两个7自由度手臂组成,用于双手操作,另有一个7自由度手臂配备摄像头用于主动视觉。人类目光注释通过VR设备远程操作收集。实验中比较了多种基线方法,包括LFA、DP、H-RDT和0.5模型。每种模型使用100个任务轨迹进行训练,并在100次推理试验中进行评估。为了严格评估鲁棒性,评估过程中引入了干扰物和光照变化。

结果分析

实验结果表明,GazeVLA在分布内和分布外的场景中均表现优异,特别是在分布外场景中相较于0.5模型提高了22%的相对性能。在真实机器人实验中,GazeVLA在抓取和精细操作任务中表现出色,成功率分别达到85%和两倍于0.5模型的水平。消融研究表明,意图-动作推理链显著提高了操作性能,尤其是在长时间任务和细粒度操作中。意图预测在背景变化下保持鲁棒,意图引导的动作生成使得GazeVLA能够更好地处理分布外场景。

应用场景

GazeVLA的应用场景包括复杂机器人任务中的长时间任务和细粒度操作。其在抓取、精细操作和双手灵巧操作中的优异表现表明其在工业自动化、智能制造和服务机器人领域的潜力。通过引入人类意图作为中间表示,GazeVLA能够在多样化的场景中实现更高效的操作,减少对大规模机器人数据的依赖。

局限与展望

尽管GazeVLA在多个方面表现出色,但也存在一些局限性。在某些复杂场景下,目光信号可能无法准确反映人类意图,导致模型预测偏差。此外,对大规模高质量人类数据的依赖可能限制了方法的普适性。在机器人数据缺乏意图标注的情况下,意图转移的效果可能受到影响。未来的研究方向包括探索更高效的意图建模方法,减少对大规模人类数据的依赖,以及在更多样化的机器人平台上验证GazeVLA的有效性。

通俗解读 非专业人士也能看懂

想象一下你在厨房里做饭。你需要先决定做什么菜(意图),然后根据菜谱准备食材(视觉和语言信息),最后开始烹饪(动作)。GazeVLA就像一个聪明的助手,它能通过观察你的目光(意图)来猜测你想做的菜,然后帮你准备好所有需要的食材,并指导你完成烹饪过程。这个助手不仅能在你熟悉的厨房里帮你做饭,还能在陌生的厨房里表现得同样出色,因为它能理解你的意图,并根据不同的环境调整自己的行为。通过这种方式,GazeVLA能够在多样化的场景中实现更高效的操作,减少对大规模机器人数据的依赖。

简单解释 像给14岁少年讲一样

嘿,小伙伴!你有没有想过机器人怎么知道我们想让它们做什么?比如说,你想让机器人帮你拿起桌上的书,它怎么知道你的意图呢?这就是GazeVLA的厉害之处!它能通过观察你的目光来猜测你的意图,就像你在玩游戏时,眼睛盯着屏幕上的某个地方,游戏角色就会知道你想去那里。GazeVLA就像一个超级聪明的机器人助手,它能理解你的意图,然后帮你完成任务。无论是在家里还是在学校,它都能表现得很棒,因为它能根据不同的环境调整自己的行为。是不是很酷?

术语表

GazeVLA (目光意图学习)

GazeVLA是一种通过学习人类意图来提升机器人操作性能的框架。它通过目光信号建模意图,并通过视觉-语言模型实现意图到动作的推理链。

在论文中,GazeVLA被用于解决人类与机器人之间的体现差距问题。

Vision-Language Model (视觉-语言模型)

视觉-语言模型是一种结合视觉和语言信息的模型,能够理解和生成多模态信息。

在GazeVLA中,视觉-语言模型用于处理多模态信息,实现意图到动作的推理。

Egocentric Human Dataset (自我中心人类数据集)

自我中心人类数据集是指从第一人称视角收集的人类行为数据,通常包含丰富的多模态信息,如目光、手部动作等。

GazeVLA利用自我中心人类数据集进行预训练,以捕捉人类意图及其与动作的协同关系。

Chain-of-Thought Reasoning (链式思维推理)

链式思维推理是一种推理范式,先预测意图再执行动作,增强了模型的推理能力和泛化能力。

在GazeVLA中,链式思维推理用于实现意图到动作的推理链。

Intention Modeling (意图建模)

意图建模是指通过某种方式捕捉和表示人类的意图。在GazeVLA中,意图通过目光信号进行建模。

意图建模是GazeVLA的核心创新之一,用于解决人类与机器人之间的体现差距问题。

Flow Matching (流匹配)

流匹配是一种用于生成高频连续动作的技术,通过条件流匹配生成动作序列。

在GazeVLA中,流匹配用于动作专家生成高频连续动作。

PaliGemma (PaliGemma)

PaliGemma是一种视觉-语言模型的骨干网络,结合了SigLIP视觉编码器和Gemma-2B语言模型。

在GazeVLA中,PaliGemma用于处理多模态信息,实现意图到动作的推理。

SigLIP (SigLIP)

SigLIP是一种视觉编码器,用于处理视觉信息。

在GazeVLA中,SigLIP作为PaliGemma的组成部分,用于处理视觉信息。

Gemma-2B (Gemma-2B)

Gemma-2B是一种语言模型,用于处理语言信息。

在GazeVLA中,Gemma-2B作为PaliGemma的组成部分,用于处理语言信息。

AV-ALOHA Benchmark (AV-ALOHA基准测试)

AV-ALOHA基准测试是一个用于评估机器人操作性能的基准测试,结合了人类目光监督和主动视觉感知。

在GazeVLA的实验中,AV-ALOHA基准测试用于评估模型在模拟环境中的性能。

开放问题 这项研究留下的未解疑问

  • 1 如何在没有大规模高质量人类数据的情况下实现意图的有效建模和转移?当前的方法依赖于大规模数据,这可能限制了其在资源有限环境中的应用。
  • 2 在复杂场景中,目光信号可能无法准确反映人类意图。如何提高意图预测的准确性,尤其是在多任务或干扰物存在的情况下?
  • 3 如何将GazeVLA应用于更多样化的机器人平台?当前的实验主要集中在特定的机器人平台上,验证其在其他平台上的有效性是一个值得探索的方向。
  • 4 如何结合其他感知信号(如语音或手势)以增强意图理解?目光信号虽然有效,但在某些情况下可能不足以全面捕捉人类意图。
  • 5 如何在机器人数据缺乏意图标注的情况下实现意图的跨域转移?当前的方法在机器人数据上缺乏意图标注,这可能影响意图转移的效果。

应用场景

近期应用

工业自动化

GazeVLA可以用于工业自动化中的复杂机器人任务,如装配线上的精细操作。通过学习人类意图,机器人可以在多样化的场景中实现更高效的操作。

智能制造

在智能制造中,GazeVLA可以帮助机器人更好地理解和执行复杂的制造任务,减少对大规模机器人数据的依赖,提高生产效率。

服务机器人

GazeVLA可以用于服务机器人领域,如家庭助理机器人,通过理解人类意图,提供更智能和个性化的服务。

远期愿景

跨域学习

GazeVLA的意图建模方法为未来的跨域学习研究提供了新的思路,可能在更多领域实现知识的有效转移。

人机协作

通过更好地理解人类意图,GazeVLA有望在未来的人机协作中发挥重要作用,促进更自然和高效的协作。

原文摘要

Embodied foundation models have achieved significant breakthroughs in robotic manipulation, yet they still depend heavily on large-scale robot demonstrations. Although recent works have explored leveraging human data to alleviate this dependency, effectively extracting transferable knowledge remains a significant challenge due to the inherent embodiment gap between human and robot. We argue that the intention underlying human actions can serve as a powerful intermediate representation for bridging this gap. In this paper, we introduce a novel framework that explicitly learns and transfers human intention to facilitate robotic manipulation. Specifically, we model intention through gaze, as it naturally precedes physical actions and serves as an observable proxy for human intent. Our model is first pretrained on a large-scale egocentric human dataset to capture human intention and its synergy with action, followed by finetuning on a small set of robot and human data. During inference, the model adopts a Chain-of-Thought reasoning paradigm, sequentially predicting intention before executing the action. Extensive evaluations in simulation and real-world settings, across long-horizon and fine-grained tasks, and under few-shot and robustness benchmarks, show that our method consistently outperforms strong baselines, generalizes better, and achieves state-of-the-art performance.

cs.RO

参考文献 (20)

Emergence of Human to Robot Transfer in Vision-Language-Action Models

Simar Kareer, Karl Pertsch, James Darpinian 等

2025 17 引用 ⭐ 高影响力 查看解读 →

Diffusion policy: Visuomotor policy learning via action diffusion

Cheng Chi, S. Feng, Yilun Du 等

2023 2884 引用 ⭐ 高影响力 查看解读 →

H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation

Hongzhe Bi, Lingxuan Wu, Tianwei Lin 等

2025 23 引用 ⭐ 高影响力 查看解读 →

Active Vision Might Be All You Need: Exploring Active Vision in Bimanual Robotic Manipulation

Ian Chuang, Andrew Lee, Dechen Gao 等

2024 34 引用 查看解读 →

Learning Video Representations from Large Language Models

Yue Zhao, Ishan Misra, Philipp Krahenbuhl 等

2022 250 引用 查看解读 →

EMMA: Scaling Mobile Manipulation via Egocentric Human Data

Lawrence Y. Zhu, Pranav Kuppili, Ryan Punamiya 等

2025 16 引用 查看解读 →

Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers

Ian Chuang, Andrew Lee, Dechen Gao 等

2025 11 引用 查看解读 →

Egocentric Video-Language Pretraining

Kevin Lin, Alex Wang, Mattia Soldan 等

2022 271 引用 查看解读 →

EgoMe: A New Dataset and Challenge for Following Me via Egocentric View in Real World

Heqian Qiu, Zhaofeng Shi, Lanxiao Wang 等

2025 4 引用 查看解读 →

Ego4D: Around the World in 3,000 Hours of Egocentric Video

K. Grauman, Andrew Westbury, Eugene Byrne 等

2021 1687 引用 查看解读 →

Embodied Hands : Modeling and Capturing Hands and Bodies Together * * Supplementary Material * *

Javier Romero, Dimitrios Tzionas

2017 1225 引用

OpenVLA: An Open-Source Vision-Language-Action Model

Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti 等

2024 1982 引用 查看解读 →

EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data

Ruijie Zheng, Dantong Niu, Yuqi Xie 等

2026 5 引用 查看解读 →

HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations

Xiaomeng Xu, Jisang Park, Han Zhang 等

2026 4 引用 查看解读 →

AgiBot World Colosseo: A Large-Scale Manipulation Platform for Scalable and Intelligent Embodied Systems

AgiBot-World-Contributors, Qingwen Bu, Jisong Cai 等

2025 290 引用 查看解读 →

FLARE: Robot Learning with Implicit World Modeling

Ruijie Zheng, Jing Wang, Scott Reed 等

2025 44 引用 查看解读 →

LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion

Jiangran Lyu, Kai Liu, Xuheng Zhang 等

2026 2 引用 查看解读 →

CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning

Jiange Yang, Yansong Shi, Haoyi Zhu 等

2025 22 引用 查看解读 →

Visual Instruction Tuning

Haotian Liu, Chunyuan Li, Qingyang Wu 等

2023 9067 引用 查看解读 →

ViPRA: Video Prediction for Robot Actions

Sandeep Routray, Hengkai Pan, Unnat Jain 等

2025 6 引用 查看解读 →