Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators

TL;DR

提出Astra框架结合RL训练的VLM策略与Bagel基础世界模拟器，实现基于想象的空间推理，提升MMSI-Bench从45.1到49.5。

cs.CV 🔴 高级 2026-06-05 195 次浏览

Chenming Zhu Jingli Lin Yilin Long Peizhou Cao Tai Wang Jiangmiao Pang Xihui Liu

视觉推理空间理解强化学习世界模拟器多视角推理

核心发现

方法论

本文提出Astra框架，结合基于强化学习训练的Astra-VL策略与Astra-WM世界模拟器，支持动作条件下的视觉想象。Astra-WM采用视角一致性调优，确保生成的虚拟视图在姿态和内容上具有空间一致性。训练过程中，采用两阶段的RL课程：第一阶段稳定工具使用探索，第二阶段强化模型在想象观察优于直接回答时的策略学习。Astra-VL根据是否调用模拟器，动态决策何时获取虚拟视图，结合多轮推理逐步减少空间不确定性。具体算法包括基于PPO的策略优化，利用多视角数据集（如IsaacSim、ScanNet、Matterport3D）训练世界模拟器，构建空间问答（QA）数据集进行策略训练。模型在MMSI-Bench和MindCube上进行评估，显示虚拟视图的空间一致性对推理性能提升至关重要。

关键结果

Astra-WM通过视角一致性调优，将虚拟视图的姿态一致性从未调优的平均9.0/3.0提升至72.5/70.5，显著改善了模拟器的空间一致性，提升了Gemini-3-Flash在MMSI-Bench上的准确率从45.1%到49.5%。
Astra-VL在Qwen3-VL骨架基础上，通过RL训练实现主动调用模拟器，提升在MMSI-Bench的准确率从29.8%到38.8%，在MindCube上从36.8%到42.7%，显示出虚拟视图在空间推理中的有效性。
两阶段RL课程显著改善了模型的工具调用策略，第一阶段确保模型学习合理调用模拟器，第二阶段促使模型在虚拟视图带来空间信息提升时才调用，整体策略提升了推理的准确性和效率。

研究意义

本研究突破了传统VLM空间推理受限于观察视角的瓶颈，通过主动想象虚拟视图，增强模型的空间理解能力。这一方法不仅丰富了视觉推理的工具箱，也为未来自主智能体在复杂场景中的空间认知提供了新思路。尤其是在有限观察信息条件下，模型能自主决定何时、何地、如何利用虚拟世界模拟器，有望推动机器人导航、虚拟现实、增强现实等应用的智能化发展。该框架强调学习策略的重要性，体现了人工智能从被动接受到主动探索的演变趋势。

技术贡献

本文的核心技术贡献在于提出结合强化学习的空间推理框架，创新性地将动作条件的虚拟视图生成作为推理工具。具体包括：• 设计视角一致性调优的Bagel基础世界模拟器，确保虚拟视图的空间一致性；• 构建两阶段RL训练课程，使模型学会在何时、何地调用模拟器，并优化调用策略；• 提出多轮推理机制，结合虚拟视图逐步减少空间不确定性。该方法突破了以往静态推理或被动生成的限制，为视觉推理引入主动探索和策略学习的范式。

新颖性

本研究首次系统性地将动作条件的虚拟视图生成引入空间推理框架，并通过强化学习训练模型自主决策调用模拟器。与现有的静态空间推理方法不同，Astra实现了主动探索和多轮交互，显著提升推理性能。这种结合虚拟世界模拟的主动推理机制，为未来多模态、多视角推理提供了新思路，填补了虚拟视图生成在空间推理中的应用空白。

局限性

尽管视角一致性调优显著提升了模拟器的空间一致性，但在极端复杂场景或动态场景中，虚拟视图的准确性仍有限，可能引入误导信息。
模型训练依赖大量多视角场景数据，数据采集和标注成本较高，限制了在更广泛场景中的直接应用。
当前方法主要在静态场景中验证，动态场景中的时序一致性和连续性仍需进一步研究。

未来方向

未来工作将聚焦于提升虚拟视图的动态一致性和真实性，探索多模态信息融合以增强虚拟视图的丰富性。此外，将引入更高效的策略学习方法，减少训练成本，扩展到动态场景和真实机器人环境中。还计划结合自监督学习，提升模型在未标注数据上的泛化能力，推动主动空间推理在实际应用中的落地。

AI 总览摘要

在人工智能的视觉推理领域，空间理解一直是核心难题之一。传统模型依赖于静态观察，难以推断未观察到的场景布局，尤其在视角有限的情况下表现不足。人类通过主动移动视角、构建空间心理模型，能够灵活推理和补全信息，展现出强大的空间认知能力。受此启发，本文提出了Astra框架，旨在赋予视觉语言模型（VLM）主动“想象”虚拟视图的能力，从而突破观察视角的限制。

Astra由两个核心部分组成：一是基于强化学习训练的Astra-VL策略，能自主决策何时调用虚拟世界模拟器；二是Astra-WM，一个经过视角一致性调优的Bagel基础世界模拟器，能生成空间一致的虚拟视图。通过两阶段的RL课程，模型学会在推理过程中动态选择是否调用模拟器，何时请求不同视角的虚拟视图，从而逐步减少空间推理中的不确定性。

实验结果显示，Astra显著优于传统方法。在MMSI-Bench上，单纯利用虚拟视图的模拟器提升准确率从45.1%提高到49.5%；而结合主动策略的Astra-VL，将准确率从29.8%提升至38.8%，在MindCube上亦有类似表现。这表明虚拟视图在空间推理中具有巨大潜力，但其效果依赖于模拟器的空间一致性和策略的智能决策能力。

该研究的意义在于开辟了主动空间推理的新路径。未来，结合更真实的虚拟环境和更高效的策略学习，有望推动机器人导航、虚拟现实等领域的智能化发展。虽然当前仍面临模拟器真实性和数据成本等挑战，但这项工作为未来自主智能体的空间认知提供了坚实基础。

深度解读

原文摘要

While Vision-Language Models (VLMs) have shown strong visual reasoning capabilities, their spatial reasoning abilities remain largely constrained to the observed images and text-oriented chain-of-thought. They often struggle to infer unobserved layouts, maintain cross-view consistency, and reason from alternative viewpoints when only limited egocentric observations are available. In this work, we study this problem as thinking with imagination, where a VLM actively acquires imagined visual evidence by interacting with a world simulator during reasoning. We propose Astra, an agentic spatial reasoning framework that empowers VLMs with action-conditioned visual imagination. Specifically, Astra couples Astra-VL, an RL-trained VLM policy, with Astra-WM, a Bagel-based world simulator that generates novel-view observations from context images and natural-language camera motions. To provide reliable imagined evidence, Astra-WM is trained with view consistency tuning to improve pose and content consistency across views. In the RL stage, we propose a world-simulator-in-the-loop two-phase RL curriculum to stabilize tool-use exploration and advance the model's ability to invoke the simulator only when imagined observations improve over direct answering. Experiments demonstrate that both the world simulator and the agentic policy are necessary: Astra-WM improves simulator-augmented Gemini-3-Flash on MMSI-Bench from 45.1 to 49.5, while Astra-VL improves the Qwen3-VL backbone from 29.8 to 38.8 on MMSI-Bench and from 36.8 to 42.7 on MindCube. These results show that imagined observations can provide useful spatial evidence, but effective world-model-augmented reasoning requires learning when, where, and how to imagine.

cs.CV

参考文献 (20)

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

Zhao-yu Su, Peng Xia, Hangyu Guo 等

2025 151 引用查看解读 →

DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision

Lu Ling, Yichen Sheng, Zhi Tu 等

2023 451 引用查看解读 →

ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

Dingming Li, Hongxing Li, Zixuan Wang 等

2025 54 引用查看解读 →

SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models

Wufei Ma, Luoxin Ye, Nessa McWeeney 等

2025 37 引用查看解读 →

OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

Zhao-yu Su, Linjie Li, Mingyang Song 等

2025 124 引用查看解读 →

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

Yong Xien Chng, T. Hu, Wenwen Tong 等

2025 14 引用查看解读 →

SpaceR: Reinforcing MLLMs in Video Spatial Reasoning

Kun Ouyang, Yuanxin Liu, Haoning Wu 等

2025 97 引用查看解读 →

SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models

Hongxing Li, Dingming Li, Zixuan Wang 等

2025 44 引用查看解读 →

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

Yi Han, Cheng Chi, Enshen Zhou 等

2025 16 引用查看解读 →

DeepEyesV2: Toward Agentic Multimodal Model

Jack Hong, Chenxiao Zhao, Chenglin Zhu 等

2025 70 引用查看解读 →

Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning

Alex Su, Haozhe Wang, Weiming Ren 等

2025 205 引用查看解读 →

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

Ganlin Yang, Tianyi Zhang, Haoran Hao 等

2025 14 引用查看解读 →

Thyme: Think Beyond Images

Yi-Fan Zhang, Xingyu Lu, Shukang Yin 等

2025 100 引用查看解读 →

ScanNet: Richly-Annotated 3D Reconstructions of Indoor Scenes

Angela Dai, Angel X. Chang, M. Savva 等

2017 5486 引用查看解读 →

Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

X. Lai, Junyi Li, Wei Li 等

2025 76 引用查看解读 →

COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

Zefeng Zhang, Xiangzhao Hao, Hengzhu Tang 等

2025 6 引用查看解读 →

Ross3d: Reconstructive Visual Instruction Tuning With 3D-Awareness

Haochen Wang, Yucheng Zhao, Tiancai Wang 等

2025 53 引用查看解读 →

HybridFlow: A Flexible and Efficient RLHF Framework

Guangming Sheng, Chi Zhang, Zilingfeng Ye 等

2024 1801 引用查看解读 →

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

Ziwei Zheng, Michael Yang, Jack Hong 等

2025 221 引用查看解读 →

Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

Jun Wu, Jian Guan, Kaituo Feng 等

2025 104 引用查看解读 →

Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence