SENSE: Stereo OpEN Vocabulary SEmantic Segmentation

TL;DR

SENSE利用立体视觉和视觉语言模型提升开放词汇语义分割，在PhraseStereo上提高2.9%精度。

cs.CV 🔴 高级 2026-04-17 37 次浏览

Thomas Campagnolo Ezio Malis Philippe Martinet Gaétan Bahl

立体视觉开放词汇语义分割视觉语言模型自动驾驶

核心发现

方法论

SENSE是一种新颖的立体开放词汇语义分割方法。通过结合立体图像对和视觉语言模型（如CLIP），SENSE引入几何线索来提高空间推理和分割精度。其架构基于冻结的CLIP特征和CLIPSeg框架，增加了立体融合模块和轻量级解码器，能够在不重新训练骨干网络的情况下进行自然语言查询。

关键结果

在PhraseStereo数据集上，SENSE比基线方法提高了2.9%的平均精度，并比最佳竞争方法提高了0.76%。
在Cityscapes数据集上，SENSE相较于基线工作提供了3.5%的mIoU相对提升。
在KITTI数据集上，SENSE相较于基线工作提供了18%的mIoU相对提升。

研究意义

SENSE通过将语义和几何联合推理，支持从自然语言中进行准确的场景理解，这对于自动驾驶和智能交通系统至关重要。其在开放词汇语义分割中的创新性应用，突破了传统方法在空间精度上的限制，尤其是在遮挡和物体边界附近的表现。

技术贡献

SENSE的技术贡献在于首次将立体视觉与开放词汇语义分割相结合，利用立体图像对提供的几何信息来增强空间推理能力。其架构在不重新训练CLIP骨干网络的情况下，利用中间CLIP激活进行立体融合和轻量级解码。

新颖性

SENSE是首个将立体视觉应用于开放词汇语义分割的方法。相比于现有的单视图方法，SENSE通过引入立体图像对的几何线索，显著提高了分割精度和空间推理能力。

局限性

SENSE在处理极端光照条件或立体匹配失败的场景时表现可能不佳。
由于依赖于CLIP的预训练特征，SENSE在处理未见过的视觉特征时可能会受到限制。

未来方向

未来的研究方向包括探索更高效的立体融合方法，以及在更大规模和多样化的数据集上进行训练，以提高模型的泛化能力和鲁棒性。

AI 总览摘要

在自动驾驶和智能交通系统中，场景理解是一个至关重要的任务。然而，现有的语义分割模型通常依赖于固定的类别集，难以在动态环境中灵活应用。SENSE提出了一种新颖的方法，通过结合立体视觉和视觉语言模型，突破了传统方法在空间精度上的限制。

SENSE的核心在于利用立体图像对提供的几何信息，增强空间推理能力。其架构基于冻结的CLIP特征和CLIPSeg框架，增加了立体融合模块和轻量级解码器，能够在不重新训练骨干网络的情况下进行自然语言查询。这种方法在PhraseStereo数据集上表现优异，显示出强大的泛化能力。

在实验中，SENSE在PhraseStereo数据集上比基线方法提高了2.9%的平均精度，并在Cityscapes和KITTI数据集上分别提供了3.5%和18%的mIoU相对提升。这些结果表明，SENSE在处理复杂场景和未见过的类别时，具有显著的优势。

SENSE的创新性在于首次将立体视觉应用于开放词汇语义分割，利用立体图像对的几何线索，显著提高了分割精度和空间推理能力。这为自动驾驶和智能交通系统中的场景理解提供了新的可能性。

然而，SENSE在处理极端光照条件或立体匹配失败的场景时表现可能不佳。此外，由于依赖于CLIP的预训练特征，SENSE在处理未见过的视觉特征时可能会受到限制。未来的研究方向包括探索更高效的立体融合方法，以及在更大规模和多样化的数据集上进行训练，以提高模型的泛化能力和鲁棒性。

深度分析

研究背景

语义分割是计算机视觉中的一个基本任务，其目标是为图像中的每个像素分配一个类别标签。传统的语义分割模型通常依赖于密集的标注，并在固定的类别集上操作，难以在动态环境中灵活应用。近年来，开放词汇语义分割作为一种有前途的替代方案出现，使得模型能够基于任意类别名称或自然语言表达进行图像分割。然而，现有的方法主要依赖于单视图图像，难以处理遮挡和物体边界附近的空间精度问题。

核心问题

现有的开放词汇语义分割方法在空间精度上存在局限，尤其是在处理遮挡和物体边界时。这是因为这些方法通常依赖于单视图图像，忽略了立体视觉提供的几何线索。此外，现有的视觉语言模型主要设计用于图像级别的分类，缺乏像素级分割所需的空间粒度。

核心创新

SENSE的核心创新在于首次将立体视觉应用于开放词汇语义分割。通过结合立体图像对和视觉语言模型，SENSE引入了几何线索，显著提高了空间推理和分割精度。其架构基于冻结的CLIP特征和CLIPSeg框架，增加了立体融合模块和轻量级解码器，能够在不重新训练骨干网络的情况下进行自然语言查询。

方法详解

�� SENSE利用立体图像对提供的几何信息，增强空间推理能力。
�� 其架构基于冻结的CLIP特征和CLIPSeg框架，增加了立体融合模块和轻量级解码器。
�� 通过引入中间CLIP激活进行立体融合和轻量级解码，SENSE能够在不重新训练骨干网络的情况下进行自然语言查询。
�� 在大规模数据集上使用滑动窗口策略，解决CLIP编码器的分辨率限制，生成细粒度预测，同时保留全局上下文。

实验设计

SENSE在PhraseStereo数据集上进行了训练和评估，该数据集专为短语定位任务而设计。实验中，SENSE在PhraseStereo数据集上比基线方法提高了2.9%的平均精度，并在Cityscapes和KITTI数据集上分别提供了3.5%和18%的mIoU相对提升。实验设置中使用了滑动窗口策略和CRF细化，以应对多标签分割任务。

结果分析

实验结果表明，SENSE在PhraseStereo数据集上比基线方法提高了2.9%的平均精度，并在Cityscapes和KITTI数据集上分别提供了3.5%和18%的mIoU相对提升。这些结果表明，SENSE在处理复杂场景和未见过的类别时，具有显著的优势。

应用场景

SENSE在自动驾驶和智能交通系统中的应用前景广阔。其能够在动态环境中灵活应用，支持从自然语言中进行准确的场景理解。这为自动驾驶车辆在复杂环境中进行决策提供了新的可能性。

局限与展望

SENSE在处理极端光照条件或立体匹配失败的场景时表现可能不佳。此外，由于依赖于CLIP的预训练特征，SENSE在处理未见过的视觉特征时可能会受到限制。未来的研究方向包括探索更高效的立体融合方法，以及在更大规模和多样化的数据集上进行训练，以提高模型的泛化能力和鲁棒性。

通俗解读非专业人士也能看懂

想象你在厨房里准备一顿大餐。你有一个助手，他能听懂你的指令，并帮你找到所需的食材和工具。这个助手就像SENSE中的视觉语言模型，能够理解自然语言并在图像中找到对应的物体。

现在，你需要在厨房里找到一个特定的调料瓶，但它被其他瓶子挡住了。你戴上了一副特殊的眼镜，这副眼镜能让你看到瓶子的深度和位置。这就像SENSE中的立体视觉，能够提供额外的几何信息，帮助你更准确地找到目标。

通过结合助手的语言理解能力和眼镜的几何信息，你能够快速而准确地找到所需的调料瓶。这就是SENSE的工作原理：通过结合视觉语言模型和立体视觉，SENSE能够在复杂的场景中准确地进行语义分割。

这种方法特别适用于自动驾驶和智能交通系统，因为它能够在动态环境中灵活应用，支持从自然语言中进行准确的场景理解。

简单解释像给14岁少年讲一样

嘿，小伙伴！想象一下你在玩一个超级酷的游戏，你的任务是找到隐藏在地图上的宝藏。但问题是，地图上有很多障碍物挡住了你的视线！

这时候，你有一个神奇的助手，他不仅能听懂你说的话，还能帮你找到宝藏的位置。这个助手就像SENSE中的视觉语言模型，能够理解自然语言并在图像中找到对应的物体。

但有时候，宝藏可能藏在一个非常隐蔽的地方，这时候你的助手也会感到困惑。于是，你戴上了一副特殊的眼镜，这副眼镜能让你看到障碍物背后的东西。这就像SENSE中的立体视觉，能够提供额外的几何信息，帮助你更准确地找到目标。

通过结合助手的语言理解能力和眼镜的几何信息，你能够快速而准确地找到宝藏。这就是SENSE的工作原理：通过结合视觉语言模型和立体视觉，SENSE能够在复杂的场景中准确地进行语义分割。是不是很酷？

术语表

SENSE (立体开放词汇语义分割)

SENSE是一种结合立体视觉和视觉语言模型的语义分割方法，能够在动态环境中灵活应用。

在论文中，SENSE用于提高开放词汇语义分割的空间精度。

立体视觉 (Stereo Vision)

立体视觉通过结合两个视角的图像，提供关于物体深度和位置的几何信息。

在SENSE中，立体视觉用于提供几何线索，增强空间推理能力。

视觉语言模型 (Vision-Language Model)

视觉语言模型能够理解自然语言并在图像中找到对应的物体。

在SENSE中，CLIP作为视觉语言模型用于自然语言查询。

CLIP

CLIP是一种视觉语言模型，能够在共享的嵌入空间中对齐视觉和文本模态。

在SENSE中，CLIP用于提供视觉和文本特征。

CLIPSeg

CLIPSeg是一种基于CLIP特征的语义分割框架，能够进行密集预测。

在SENSE中，CLIPSeg用于轻量级解码。

PhraseStereo

PhraseStereo是一个专为短语定位任务设计的数据集，包含丰富的对象、属性和空间查询。

在SENSE中，PhraseStereo用于训练和评估模型。

mIoU (平均交并比)

mIoU是评估语义分割模型性能的指标，表示预测结果与真实标签的重叠程度。

在SENSE的实验中，mIoU用于评估模型在Cityscapes和KITTI数据集上的表现。

CRF (条件随机场)

CRF是一种用于多标签分割任务的后处理策略，能够细化分割掩码。

在SENSE的实验中，CRF用于细化多标签分割掩码。

轻量级解码器 (Lightweight Decoder)

轻量级解码器用于处理中间特征表示，并生成最终的分割输出。

在SENSE中，轻量级解码器用于处理立体融合后的特征。

滑动窗口策略 (Sliding-Window Strategy)

滑动窗口策略用于处理大规模数据集，解决编码器的分辨率限制。

在SENSE的实验中，滑动窗口策略用于生成细粒度预测。

开放问题这项研究留下的未解疑问

1 尽管SENSE在开放词汇语义分割中表现出色，但其在处理极端光照条件或立体匹配失败的场景时表现可能不佳。这需要进一步研究如何提高模型在这些场景中的鲁棒性。
2 SENSE依赖于CLIP的预训练特征，这可能限制其在处理未见过的视觉特征时的表现。未来的研究可以探索如何在不依赖预训练特征的情况下提高模型的泛化能力。
3 目前，SENSE在大规模数据集上的训练和评估仍然受到计算资源的限制。未来的研究可以探索更高效的训练方法，以提高模型的性能和效率。
4 SENSE的立体融合模块和轻量级解码器在处理复杂场景时可能存在计算瓶颈。未来的研究可以探索更高效的模块设计，以提高模型的计算效率。
5 在开放词汇语义分割中，如何更好地处理多标签分割任务仍然是一个开放问题。未来的研究可以探索更有效的多标签分割策略，以提高模型的表现。

应用场景

近期应用

自动驾驶

SENSE可以用于自动驾驶车辆的场景理解，帮助车辆在复杂环境中进行决策。

智能交通系统

SENSE可以用于智能交通系统中的场景理解，支持从自然语言中进行准确的场景识别。

机器人导航

SENSE可以用于机器人导航中的场景理解，帮助机器人在动态环境中进行路径规划。

远期愿景

智能城市

SENSE可以用于智能城市中的场景理解，支持城市基础设施的智能化管理。

增强现实

SENSE可以用于增强现实中的场景理解，支持更自然的人机交互。

原文摘要

Open-vocabulary semantic segmentation enables models to segment objects or image regions beyond fixed class sets, offering flexibility in dynamic environments. However, existing methods often rely on single-view images and struggle with spatial precision, especially under occlusions and near object boundaries. We propose SENSE, the first work on Stereo OpEN Vocabulary SEmantic Segmentation, which leverages stereo vision and vision-language models to enhance open-vocabulary semantic segmentation. By incorporating stereo image pairs, we introduce geometric cues that improve spatial reasoning and segmentation accuracy. Trained on the PhraseStereo dataset, our approach achieves strong performance in phrase-grounded tasks and demonstrates generalization in zero-shot settings. On PhraseStereo, we show a +2.9% improvement in Average Precision over the baseline method and +0.76% over the best competing method. SENSE also provides a relative improvement of +3.5% mIoU on Cityscapes and +18% on KITTI compared to the baseline work. By jointly reasoning over semantics and geometry, SENSE supports accurate scene understanding from natural language, essential for autonomous robots and Intelligent Transportation Systems.

cs.CV cs.RO

参考文献 (20)

PhraseStereo: The First Open-Vocabulary Stereo Image Segmentation Dataset

Thomas Campagnolo, E. Malis, Philippe Martinet 等

2025 1 引用 ⭐ 高影响力查看解读 →

Learning Transferable Visual Models From Natural Language Supervision

Alec Radford, Jong Wook Kim, Chris Hallacy 等

2021 46813 引用 ⭐ 高影响力查看解读 →

HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching

V. Tankovich, Christian Häne, S. Fanello 等

2020 286 引用 ⭐ 高影响力查看解读 →

Selective-Stereo: Adaptive Frequency Information Selection for Stereo Matching

Xianqi Wang, Gangwei Xu, Hao Jia 等

2024 136 引用 ⭐ 高影响力查看解读 →

The Cityscapes Dataset for Semantic Urban Scene Understanding

Marius Cordts, Mohamed Omran, Sebastian Ramos 等

2016 13341 引用 ⭐ 高影响力查看解读 →

Image Segmentation Using Text and Image Prompts

Timo Lüddecke, Alexander S. Ecker

2021 732 引用 ⭐ 高影响力查看解读 →

Scaling Open-Vocabulary Image Segmentation with Image-Level Labels

Golnaz Ghiasi, Xiuye Gu, Yin Cui 等

2021 558 引用 ⭐ 高影响力查看解读 →

PhraseCut: Language-Based Image Segmentation in the Wild

Chenyun Wu, Zhe Lin, Scott D. Cohen 等

2020 145 引用 ⭐ 高影响力查看解读 →

MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching

Faranak Shamsafar, Samuel Woerz, Rafia Rahim 等

2021 136 引用 ⭐ 高影响力查看解读 →

Image Segmentation with Large Language Models: A Survey with Perspectives for Intelligent Transportation Systems

Sanjeda Akter, Ibne Farabi Shihab, Anuj Sharma

2025 3 引用 ⭐ 高影响力查看解读 →

Augmented Reality Meets Computer Vision: Efficient Data Generation for Urban Driving Scenes

Hassan Abu Alhaija, Siva Karthik Mustikovela, L. Mescheder 等

2017 479 引用 ⭐ 高影响力查看解读 →

Extract Free Dense Labels from CLIP

Chong Zhou, Chen Change Loy, Bo Dai

2021 744 引用 ⭐ 高影响力查看解读 →

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

Shilong Liu, Zhaoyang Zeng, Tianhe Ren 等

2023 3902 引用查看解读 →

DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

Junjie Wang, Bin Chen, Yulin Li 等

2025 22 引用查看解读 →

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

Liang-Chieh Chen, Yukun Zhu, G. Papandreou 等

2018 16264 引用查看解读 →

One-Stage Deep Stereo Network

Ziming Liu, E. Malis, Philippe Martinet

2024 3 引用

Automatic differentiation in PyTorch

Adam Paszke, Sam Gross, Soumith Chintala 等

2017 16031 引用

Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data

J. Lafferty, A. McCallum, Fernando Pereira

2001 15499 引用

OpenWorldSAM: Extending SAM2 for Universal Image Segmentation with Language Prompts

Shiting Xiao, Rishabh Kabra, Yuhang Li 等

2025 4 引用查看解读 →

Feature-wise transformations

Vincent Dumoulin, Ethan Perez, Nathan Schucher 等

2018 216 引用

SENSE: Stereo OpEN Vocabulary SEmantic Segmentation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

SENSE (立体开放词汇语义分割)

立体视觉 (Stereo Vision)

视觉语言模型 (Vision-Language Model)

CLIP

CLIPSeg

PhraseStereo

mIoU (平均交并比)

CRF (条件随机场)

轻量级解码器 (Lightweight Decoder)

滑动窗口策略 (Sliding-Window Strategy)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

自动驾驶

智能交通系统

机器人导航

远期愿景

智能城市

增强现实

原文摘要

参考文献 (20)

相关论文

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

SS3D: End2End Self-Supervised 3D from Web Videos

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问