SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning

TL;DR

SpatialClaw采用代码作为行动接口，提升20项空间推理任务的平均准确率至59.9%，超越现有方法11.2个百分点。

cs.CV 🔴 高级 2026-06-12 158 次浏览

Seokju Cho Ryo Hachiuma Abhishek Badki Hang Su Byung-Kwan Lee Chan Hee Song Sifei Liu Subhashree Radhakrishnan Seungryong Kim Yu-Chiang Frank Wang Min-Hung Chen

AI 阅读器 Arxiv 原文下载 PDF

空间推理视觉语言模型工具增强代码接口多模态理解

核心发现

方法论

SpatialClaw提出了一种基于持久化Python内核的空间推理框架，通过代码作为行动接口，实现对感知工具的灵活组合与操作。该方法在预加载输入帧、感知与几何原语、科学计算库（如NumPy、SciPy）基础上，允许模型逐步编写、执行代码单元，观察中间结果并进行修正。其核心机制包括：• 通过系统提示引导模型生成空间分析代码；• 利用持久化环境保存中间变量与结果；• 采用多轮计划-生成-执行-反馈-修正的循环策略，逐步逼近正确答案。该框架无需训练，直接在20个静态与动态3D/4D空间推理任务上进行评估，显著优于采用单次代码执行或结构化工具调用的传统方法，表现出优异的泛化能力。

关键结果

在20个空间推理基准测试中，SpatialClaw实现了59.9%的平均准确率，比最新空间推理模型高出11.2个百分点，尤其在动态视频与多视角推理任务中表现优越，体现了其在复杂几何关系链中的优势。该方法在六个不同的VLM骨干模型（包括Qwen系列和Gemma系列）上均取得了稳定提升，无需针对特定任务或模型进行调优，验证了其方法的普适性。
与传统单次代码执行和结构化工具调用相比，SpatialClaw的多轮迭代策略允许模型在推理过程中不断修正中间结果，显著提升了推理的准确性和鲁棒性。实验证明，该方法在深度估计、空间关系测量、运动追踪等任务中，均优于基线模型，尤其在处理多视角、多时间步的空间关系时，优势更加明显。
通过消融实验验证，代码作为行动接口的表达能力远超预定义API，模型能够灵活组合感知工具（如深度估计、场景重建、距离测量等）实现复杂空间推理。即使去除预定义的工具包装，纯粹的代码接口依然保持较高性能，强调了方法的灵活性和扩展性。

研究意义

本研究突破了空间推理中行动接口的传统限制，提出以代码为媒介的灵活操作方式，为视觉-语言模型在复杂空间理解中的应用开辟新路径。该方法不仅提升了模型在静态和动态场景中的推理能力，还展示了无需额外训练即可实现的强泛化能力，为未来多模态智能系统的设计提供了理论基础和工程实践方案。其在机器人导航、场景理解、增强现实等领域具有广泛的应用潜力，有望推动智能系统向更高层次的空间认知迈进。

技术贡献

本文的核心技术贡献在于：• 提出以代码为行动接口的空间推理框架，打破了单次执行和结构化调用的局限，实现多轮迭代式推理；• 设计了持久化Python内核，支持中间变量的存储、观察与修正，增强了推理的灵活性和可调试性；• 结合科学计算库（如NumPy、SciPy）实现复杂几何与数值操作，提升了推理的表达能力；• 在20个空间推理基准上进行系统评估，验证了该方法在静态与动态、多视角、多时间步场景中的优越性，且无需模型或基准的特定调优。

新颖性

该工作首次系统性引入代码作为空间推理的行动接口，区别于以往的单次程序或预定义API调用，强调多轮交互与修正能力。创新点在于：• 利用持久化环境实现中间结果的持续管理，支持复杂空间关系的逐步构建；• 通过系统提示引导模型自主生成空间分析代码，增强模型的表达与推理能力；• 实现跨模型与任务的无缝迁移，验证了方法的普适性。这些创新极大丰富了空间推理的工具箱，推动了多模态推理的边界。

局限性

尽管SpatialClaw在多项空间推理任务中表现优异，但其依赖于预加载的感知工具和科学库，可能在极端场景或硬件限制下受限。此外，代码生成的复杂度可能导致推理时间增加，尤其在高复杂度任务中，模型的代码编写与调试仍需一定的人工干预。
该方法目前主要依赖于强大的大规模语言模型（如Qwen、Gemma），在资源有限或模型能力不足的环境中，性能可能受到影响。同时，复杂空间关系的推理仍存在一定的挑战，未来需结合更高效的几何推理算法。
虽然多轮修正机制增强了鲁棒性，但在极端错误或模糊场景中，模型仍可能陷入误导，造成推理失败。未来应结合更强的验证机制和自我校正策略，以提升系统的可靠性。

未来方向

未来，作者计划结合强化学习或自监督机制，进一步优化代码生成的效率与准确性，探索更复杂的空间关系与动态场景推理。此外，将引入更丰富的感知工具集和几何推理算法，提升模型在实际机器人与增强现实应用中的表现。同时，考虑多模态数据融合，增强模型对复杂环境的理解能力，推动空间推理向更高层次的智能化发展。

AI 总览摘要

空间推理作为理解三维空间中物体位置、关系与运动的核心能力，长期以来一直是视觉-语言模型（VLMs）面临的重大挑战。现有方法多依赖单次程序执行或结构化API调用，限制了推理的灵活性与复杂性，难以应对动态、多视角、多时间步的复杂场景。本文提出的SpatialClaw框架，通过引入代码作为行动接口，开创性地实现了多轮迭代式空间推理。该方法利用持久化Python内核，允许模型逐步编写、执行、观察与修正推理过程中的中间结果，从而大幅提升推理的表达能力与鲁棒性。

在20项空间推理基准测试中，SpatialClaw平均准确率达59.9%，比最新模型高出11.2个百分点，尤其在动态视频和多视角推理任务中表现优越。这一显著提升归功于其灵活的代码操作能力，使模型能够根据中间证据自主组合感知工具（如深度估计、场景重建、距离测量等），实现复杂几何关系的逐步构建与修正。实验还验证了该方法在不同的VLM骨干模型（Qwen和Gemma系列）上具有良好的迁移性，无需调优，即可获得一致性能提升。

该研究的意义在于，突破了空间推理中行动接口的传统限制，为多模态智能系统提供了更强的表达与操作能力。通过多轮修正机制，模型不仅能更准确地理解复杂场景，还能在机器人导航、增强现实、场景理解等实际应用中展现出巨大潜力。未来，作者计划结合强化学习与自监督技术，进一步提升代码生成效率，扩展感知工具集，推动空间推理向更高层次的智能化发展。

深度解读

原文摘要

Spatial reasoning, the ability to determine where objects are, how they relate, and how they move in 3D, remains a fundamental challenge for vision-language models (VLMs). Tool-augmented agents attempt to address this by augmenting VLMs with specialist perception modules, yet their effectiveness is bounded by the action interface through which those tools are invoked. In this work, we study how the design of this interface shapes the agent's capacity for open-ended spatial reasoning. Existing spatial agents either employ single-pass code execution, which commits to a full analysis strategy before any intermediate result is observed, or rely on a structured tool-call interface that often offers less flexibility for freely composing operations or tailoring the analysis to each task. Both designs offer limited flexibility for open-ended, complex 3D/4D spatial reasoning. We therefore propose SpatialClaw, a training-free framework for spatial reasoning that adopts code as the action interface. SpatialClaw maintains a stateful Python kernel pre-loaded with input frames and a suite of perception and geometry primitives, letting a VLM-backed agent write one executable cell per step conditioned on all prior outputs, enabling the agent to flexibly compose and manipulate perception results and adapt its analysis to both intermediate text and visual observations and the demands of each problem. Evaluated across 20 spatial reasoning benchmarks spanning a broad range of static and dynamic 3D/4D spatial reasoning tasks, SpatialClaw achieves 59.9% average accuracy, outperforming the recent spatial agent by +11.2 points, with consistent gains across six VLM backbones from two model families without any benchmark- or model-specific adaptation.

cs.CV cs.AI

参考文献 (20)

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

Siyi Chen, M. Uy, Chan Hee Song 等

2025 11 引用 ⭐ 高影响力查看解读 →

SAM 3: Segment Anything with Concepts

Nicolas Carion, Laura Gustafson, Yuan-Ting Hu 等

2025 462 引用 ⭐ 高影响力查看解读 →

Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts

Ellis Brown, Jihan Yang, Shusheng Yang 等

2025 17 引用 ⭐ 高影响力查看解读 →

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

Boyuan Chen, Zhuo Xu, Sean Kirmani 等

2024 846 引用查看解读 →

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Mengdi Jia, Zekun Qi, Shaochen Zhang 等

2025 72 引用查看解读 →

Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

Guo Chen, Zhiqi Li, Shihao Wang 等

2025 53 引用查看解读 →

4DP-QA: Scalable QA for 4D Perception in Vision Language Models

Seokju Cho, Abhishek Badki, Hang Su 等

2026 1 引用查看解读 →

Spatial Mental Modeling from Limited Views

Baiqiao Yin, Qineng Wang, Pingyue Zhang 等

2025 52 引用

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

Yi Han, Cheng Chi, Enshen Zhou 等

2025 19 引用查看解读 →

RieMind: Geometry-Grounded Spatial Agent for Scene Understanding

Fernando Ropero, Erkin Turkoz, Daniel Matos 等

2026 2 引用查看解读 →

Visual Programming: Compositional visual reasoning without training

Tanmay Gupta, Aniruddha Kembhavi

2022 679 引用查看解读 →

PyVision: Agentic Vision with Dynamic Tooling

Shitian Zhao, Haoquan Zhang, Shaoheng Lin 等

2025 49 引用查看解读 →

VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction

Zhiwen Fan, Jian Zhang, Renjie Li 等

2025 127 引用查看解读 →

ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

Dingming Li, Hongxing Li, Zixuan Wang 等

2025 55 引用查看解读 →

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena

Lianmin Zheng, Wei-Lin Chiang, Ying Sheng 等

2023 9117 引用查看解读 →

From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs

Mingrui Wu, Zhaozhi Wang, Fangjinhua Wang 等

2025 6 引用查看解读 →

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

Zhanpeng Luo, Ce Zhang, Silong Yong 等

2026 8 引用查看解读 →

End-to-End Object Detection with Transformers

Nicolas Carion, Francisco Massa, Gabriel Synnaeve 等

2020 18472 引用查看解读 →

SAM 2: Segment Anything in Images and Videos

Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu 等

2024 3423 引用查看解读 →

SciPy 1.0: fundamental algorithms for scientific computing in Python

Pauli Virtanen, R. Gommers, T. Oliphant 等

2019 32414 引用

SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence