O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

TL;DR

O3N框架通过极坐标螺旋拓扑实现360°空间表示，在QuadOcc和Human360Occ基准上达到最先进性能。

cs.CV 🔴 高级 2026-03-13 10 次浏览

Mengfei Duan Hao Shi Fei Teng Guoqiang Zhao Yuheng Zhang Zhiyong Li Kailun Yang

全方位感知开放词汇占用预测极坐标螺旋语义对齐

核心发现

方法论

O3N框架通过极坐标螺旋拓扑实现360°空间表示，结合占用成本聚合模块和自然模态对齐模块，提供一致的像素-体素-文本表示。PsM模块通过极坐标螺旋扫描捕捉长距离上下文，OCA模块在体素空间中统一几何和语义监督，NMA模块实现视觉特征、体素嵌入和文本语义的无梯度对齐。

关键结果

在QuadOcc基准上，O3N在已知和新颖类别上均取得显著提升，整体mIoU达到16.54，超越OVO的14.33，尤其在新颖类别上达到21.16，超过一些全监督方法。
在Human360Occ数据集上，O3N在开放词汇设置下实现了24.25的整体mIoU，表现优于所有开放词汇对手，并与一些全监督方法相当。
消融实验表明，PsM、OCA和NMA模块的结合显著提高了模型的泛化能力和语义学习效果，尤其是在未见语义上的表现。

研究意义

O3N框架在全方位开放词汇占用预测领域开创了新的方向，解决了传统方法在开放世界探索中对复杂动态物体识别的局限性。通过引入极坐标螺旋拓扑和自然模态对齐，O3N不仅在学术界推动了3D世界建模的普适性，还为工业界提供了更安全和全面的场景感知解决方案。

技术贡献

O3N在技术上通过极坐标螺旋拓扑和无梯度对齐机制实现了与现有方法的根本区别，提供了新的理论保证和工程可能性。PsM模块有效捕捉了全方位图像的空间几何和语义细节，OCA模块通过体素-文本成本体积构建增强了开放词汇空间的鲁棒性，NMA模块则有效缩小了模态间的语义差距。

新颖性

O3N是第一个实现纯视觉、端到端全方位开放词汇占用预测的框架。与现有方法相比，O3N通过极坐标螺旋拓扑和自然模态对齐实现了全新的空间表示和语义对齐方式，突破了固定视角输入和预定义训练类别的限制。

局限性

由于极坐标螺旋拓扑的复杂性，O3N在计算资源上有一定的要求，可能不适用于资源受限的设备。
在处理极端复杂的动态场景时，O3N的语义对齐可能会受到挑战，尤其是在未见语义的泛化上。
虽然O3N在开放词汇预测上表现出色，但在某些特定领域的特定语义类别上仍需进一步优化。

未来方向

未来工作可以包括进一步优化O3N在资源受限设备上的性能，以及在更广泛的场景和数据集上验证其泛化能力。此外，探索与其他感知模态（如LiDAR）的融合，可能进一步增强O3N的场景理解能力。

AI 总览摘要

在自动驾驶和智能机器人领域，全方位感知已成为不可避免的发展趋势。然而，现有的3D占用预测方法由于视角输入的限制和预定义的训练分布，在开放世界探索中难以满足对场景的全面和安全感知需求。

为了解决这一问题，本文提出了O3N框架，这是第一个纯视觉、端到端的全方位开放词汇占用预测框架。O3N通过极坐标螺旋拓扑实现360°空间表示，并结合占用成本聚合模块和自然模态对齐模块，提供一致的像素-体素-文本表示。

O3N的核心技术原理包括：PsM模块通过极坐标螺旋扫描捕捉长距离上下文，OCA模块在体素空间中统一几何和语义监督，NMA模块实现视觉特征、体素嵌入和文本语义的无梯度对齐。

在实验中，O3N在QuadOcc和Human360Occ基准上均取得了最先进的性能，尤其在新颖类别上表现出色，展示了其在跨场景泛化和语义可扩展性方面的显著优势。

这一研究不仅在学术界推动了3D世界建模的普适性，还为工业界提供了更安全和全面的场景感知解决方案。然而，O3N在计算资源上有一定的要求，未来工作可以包括进一步优化其在资源受限设备上的性能。

深度分析

研究背景

随着自动驾驶和智能机器人技术的快速发展，全方位感知已成为实现自主智能体和具身智能的关键。然而，现有的3D占用预测方法通常依赖于有限的视角输入和预定义的训练分布，难以适应开放世界探索中复杂动态物体的识别需求。近年来，研究人员尝试通过多传感器、多视角的方法来提升语义理解和空间几何建模的能力，但这些方法通常局限于固定的词汇表，无法识别未知的语义类别。

核心问题

现有的3D占用预测方法在开放世界探索中面临诸多挑战，尤其是在识别复杂动态物体时。由于视角输入的限制和预定义的训练分布，这些方法难以提供全面和安全的场景感知。此外，传统方法通常假设场景理解是对有限标签集的识别，这限制了模型在开放世界环境中处理未知对象类别的能力。

核心创新

O3N框架在全方位开放词汇占用预测领域引入了多项创新：

�� 极坐标螺旋拓扑：通过极坐标螺旋扫描实现360°空间表示，捕捉长距离上下文。

�� 占用成本聚合模块：在体素空间中统一几何和语义监督，增强开放词汇空间的鲁棒性。

�� 自然模态对齐模块：实现视觉特征、体素嵌入和文本语义的无梯度对齐，缩小模态间的语义差距。

方法详解

O3N框架的实现包括以下关键步骤：

�� 极坐标螺旋拓扑：通过极坐标螺旋扫描实现360°空间表示，捕捉长距离上下文。

�� 占用成本聚合模块：在体素空间中统一几何和语义监督，增强开放词汇空间的鲁棒性。

�� 自然模态对齐模块：实现视觉特征、体素嵌入和文本语义的无梯度对齐，缩小模态间的语义差距。

实验设计

实验设计包括在QuadOcc和Human360Occ数据集上进行测试，使用多种基线模型进行比较。主要性能指标为平均交并比（mIoU），并对新颖和已知类别分别进行评估。消融实验用于验证PsM、OCA和NMA模块的贡献。

结果分析

实验结果表明，O3N在QuadOcc和Human360Occ基准上均取得了最先进的性能，尤其在新颖类别上表现出色，展示了其在跨场景泛化和语义可扩展性方面的显著优势。消融实验表明，PsM、OCA和NMA模块的结合显著提高了模型的泛化能力和语义学习效果。

应用场景

O3N框架在自动驾驶、智能机器人和虚拟现实等领域具有广泛的应用前景。通过提供更全面和安全的场景感知，O3N可以显著提升这些领域的智能化水平。

局限与展望

O3N在计算资源上有一定的要求，可能不适用于资源受限的设备。此外，在处理极端复杂的动态场景时，O3N的语义对齐可能会受到挑战，尤其是在未见语义的泛化上。未来工作可以包括进一步优化其在资源受限设备上的性能。

通俗解读非专业人士也能看懂

想象一下你在一个巨大的迷宫里，周围都是高墙，你需要知道每个角落的情况才能找到出口。传统的方法就像用手电筒照亮迷宫的一小部分，而O3N就像是一个全景摄像头，可以一次性看到整个迷宫。它不仅能看到墙壁的位置，还能识别墙壁上画的图案，比如箭头或标记。这样一来，你就能更快地找到出口，而不必走错路。O3N通过一种叫做极坐标螺旋的方式，把迷宫分成很多小块，每个小块都能被仔细观察。这就像是用一个巨大的放大镜，把每个角落的细节都放大，让你看得更清楚。

简单解释像给14岁少年讲一样

嘿，小伙伴！你有没有玩过那种需要找出隐藏物品的游戏？想象一下，如果你有一个超级无敌的全景相机，可以看到整个房间的每个角落，那会有多酷！这就是O3N的厉害之处。它就像一个全景相机，可以一次性看到所有东西，不仅能看到物品的位置，还能识别它们是什么，比如椅子、桌子或者小猫咪。这样你就能更快地找到所有隐藏的物品，而不必一个一个去找。O3N通过一种叫做极坐标螺旋的方式，把房间分成很多小块，每个小块都能被仔细观察。这就像是用一个超级放大镜，把每个角落的细节都放大，让你看得更清楚。是不是很酷？

术语表

O3N框架

O3N是一个纯视觉、端到端的全方位开放词汇占用预测框架，利用极坐标螺旋拓扑实现360°空间表示。

用于实现全方位的场景感知和语义对齐。

极坐标螺旋拓扑

一种用于捕捉长距离上下文的空间表示方法，通过极坐标螺旋扫描实现360°空间表示。

用于O3N框架中的空间表示。

占用成本聚合模块

在体素空间中统一几何和语义监督的模块，增强开放词汇空间的鲁棒性。

用于O3N框架中的语义对齐。

自然模态对齐模块

实现视觉特征、体素嵌入和文本语义的无梯度对齐，缩小模态间的语义差距。

用于O3N框架中的模态对齐。

QuadOcc数据集

一个用于全方位占用预测的真实世界数据集，包含在校园环境中的四足机器人数据。

用于O3N框架的实验验证。

Human360Occ数据集

一个基于CARLA的模拟人类自我占用数据集，用于全方位占用预测。

用于O3N框架的实验验证。

平均交并比（mIoU）

一种用于评估模型性能的指标，表示预测结果与真实标签之间的重叠程度。

用于评估O3N框架的性能。

消融实验

一种通过逐步去除模型组件来评估其对整体性能贡献的方法。

用于验证O3N框架中各模块的贡献。

开放词汇

指模型能够识别和预测未见对象类别的能力，而无需事先标注。

用于描述O3N框架的语义可扩展性。

全方位感知

指通过360°视角实现对场景的全面感知和理解。

用于描述O3N框架的核心能力。

开放问题这项研究留下的未解疑问

1 如何在资源受限设备上优化O3N的性能？目前，O3N在计算资源上有一定的要求，这限制了其在移动设备或嵌入式系统上的应用。需要进一步研究如何在不损失性能的情况下降低计算复杂度。
2 在极端复杂的动态场景中，O3N的语义对齐可能会受到挑战。如何增强其在未见语义上的泛化能力？这需要探索新的语义对齐机制和更丰富的训练数据。
3 如何在更广泛的场景和数据集上验证O3N的泛化能力？目前的实验主要集中在QuadOcc和Human360Occ数据集上，需要进一步扩展到其他领域。
4 O3N在处理特定领域的特定语义类别时仍需优化。如何提高其在这些领域的性能？这需要针对性地调整模型架构和训练策略。
5 如何与其他感知模态（如LiDAR）融合，以进一步增强O3N的场景理解能力？这需要探索多模态融合的方法和技术。

应用场景

近期应用

自动驾驶

O3N可以用于自动驾驶车辆的全方位感知，提供更全面和安全的场景理解，帮助车辆在复杂环境中做出更准确的决策。

智能机器人

O3N可以用于智能机器人的导航和任务执行，通过识别和预测周围环境中的物体，帮助机器人更高效地完成任务。

虚拟现实

O3N可以用于虚拟现实系统的场景建模和交互，通过提供更真实和沉浸的环境，提高用户体验。

远期愿景

智能城市

O3N可以用于智能城市的全方位监控和管理，通过实时感知城市环境中的变化，提供更智能的城市规划和管理方案。

人机交互

O3N可以用于人机交互系统的智能化，通过识别和理解用户的行为和意图，提供更自然和高效的交互体验。

原文摘要

Understanding and reconstructing the 3D world through omnidirectional perception is an inevitable trend in the development of autonomous agents and embodied intelligence. However, existing 3D occupancy prediction methods are constrained by limited perspective inputs and predefined training distribution, making them difficult to apply to embodied agents that require comprehensive and safe perception of scenes in open world exploration. To address this, we present O3N, the first purely visual, end-to-end Omnidirectional Open-vocabulary Occupancy predictioN framework. O3N embeds omnidirectional voxels in a polar-spiral topology via the Polar-spiral Mamba (PsM) module, enabling continuous spatial representation and long-range context modeling across 360°. The Occupancy Cost Aggregation (OCA) module introduces a principled mechanism for unifying geometric and semantic supervision within the voxel space, ensuring consistency between the reconstructed geometry and the underlying semantic structure. Moreover, Natural Modality Alignment (NMA) establishes a gradient-free alignment pathway that harmonizes visual features, voxel embeddings, and text semantics, forming a consistent "pixel-voxel-text" representation triad. Extensive experiments on multiple models demonstrate that our method not only achieves state-of-the-art performance on QuadOcc and Human360Occ benchmarks but also exhibits remarkable cross-scene generalization and semantic scalability, paving the way toward universal 3D world modeling. The source code will be made publicly available at https://github.com/MengfeiD/O3N.

cs.CV cs.RO eess.IV

参考文献 (20)

MonoScene: Monocular 3D Semantic Scene Completion

Anh-Quan Cao, Raoul de Charette

2021 433 引用 ⭐ 高影响力查看解读 →

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation

Seokju Cho, Heeseong Shin, Sung‐Jin Hong 等

2023 207 引用 ⭐ 高影响力查看解读 →

OVO: Open-Vocabulary Occupancy

Zhiyu Tan, Zichao Dong, Cheng-Jun Zhang 等

2023 23 引用 ⭐ 高影响力查看解读 →

OneOcc: Semantic Occupancy Prediction for Legged Robots with a Single Panoramic Camera

Hao Shi, Ze Wang, Shangwei Guo 等

2025 3 引用 ⭐ 高影响力查看解读 →

One Flight Over the Gap: A Survey from Perspective to Panoramic Vision

Xin Lin, Xian Ge, Dizhe Zhang 等

2025 12 引用 ⭐ 高影响力查看解读 →

A Survey of Representation Learning, Optimization Strategies, and Applications for Omnidirectional Vision

Hao Ai, Zidong Cao, Lin Wang

2025 20 引用查看解读 →

SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic Segmentation

Xuewei Li, Tao Wu, Zhongang Qi 等

2023 27 引用查看解读 →

RoboOcc: Enhancing the Geometric and Semantic Scene Understanding for Robots

Zhang Zhang, Qiang Zhang, Wei Cui 等

2025 7 引用查看解读 →

QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction

Sicheng Zuo, Wenzhao Zheng, Han Xiao 等

2025 8 引用查看解读 →

SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction

Pin Tang, Zhongdao Wang, Guoqing Wang 等

2024 92 引用查看解读 →

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

Liang-Chieh Chen, Yukun Zhu, G. Papandreou 等

2018 15975 引用查看解读 →

GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-Aware Panoramic Semantic Segmentation

Weiming Zhang, Yexin Liu, Xueye Zheng 等

2024 28 引用查看解读 →

FishBEV: Distortion-Resilient Bird's Eye View Segmentation with Surround-View Fisheye Cameras

Hang Li, Dianmo Sheng, Qiankun Dong 等

2025 1 引用查看解读 →

ArticuBEVSeg: Road Semantic Understanding and its Application in Bird's Eye View From Panoramic Vision System of Long Combination Vehicles

Weimin Liu, Wenjun Wang

2025 2 引用

Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

Changqing Zhou, Yueru Luo, Han Zhang 等

2026 1 引用查看解读 →

DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation

Ziyu Zhao, Xiaoguang Li, Lin Shi 等

2025 7 引用查看解读 →

POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images

Antonín Vobecký, Oriane Sim'eoni, David Hurych 等

2024 56 引用查看解读 →

GoodSAM++: Bridging Domain and Capacity Gaps via Segment Anything Model for Panoramic Semantic Segmentation

Weiming Zhang, Yexin Liu, Xueye Zheng 等

2024 11 引用查看解读 →

OneBEV: Using One Panoramic Image for Bird's-Eye-View Semantic Mapping

Jiale Wei, Junwei Zheng, Ruiping Liu 等

2024 10 引用查看解读 →

Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion

Chaodong Xiao, Ming-hui Li, Zhengqiang Zhang 等

2024 40 引用查看解读 →

O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

O3N框架

极坐标螺旋拓扑

占用成本聚合模块

自然模态对齐模块

QuadOcc数据集

Human360Occ数据集

平均交并比（mIoU）

消融实验

开放词汇

全方位感知

开放问题 这项研究留下的未解疑问

应用场景

近期应用

自动驾驶

智能机器人

虚拟现实

远期愿景

智能城市

人机交互

原文摘要

参考文献 (20)

相关论文

Visual-ERM: Reward Modeling for Visual Equivalence

Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问