Bidirectional Cross-Modal Prompting for Event-Frame Asymmetric Stereo

TL;DR

Bi-CMPStereo框架在事件-帧非对称立体匹配中显著提高了准确性和泛化性。

cs.CV 🔴 高级 2026-04-17 35 次浏览

Ninghui Xu Fabio Tosi Lihui Wang Jiawei Han Luca Bartolomei Zhiting Yao Matteo Poggi Stefano Mattoccia

事件相机立体匹配深度学习跨模态计算机视觉

核心发现

方法论

本文提出了一种名为Bi-CMPStereo的双向跨模态提示框架，通过在目标规范空间内学习精细对齐的立体表示，并将每种模态投射到事件和帧域中以整合互补表示。该方法包括立体规范化约束（SCC）和跨域嵌入适配器（CDEA），以增强目标域特征并实现高保真跨模态对齐。

关键结果

在DSEC数据集上，Bi-CMPStereo在平均绝对误差（MAE）上达到了0.532，显著优于现有的最先进方法，如ZEST和SEVFI-Net。
在MVSEC数据集的跨数据集泛化测试中，Bi-CMPStereo在所有测试场景中均表现出色，显示出其强大的泛化能力。
消融研究表明，去除CDEA和SCC模块会导致性能显著下降，验证了这些组件在框架中的重要性。

研究意义

该研究在快速运动和复杂光照条件下的3D感知中具有重要意义。通过有效结合事件相机和帧相机的优势，Bi-CMPStereo框架在立体匹配中实现了更高的精度和更好的泛化能力。这一方法为机器人、自动驾驶和增强现实等领域提供了可靠的3D感知解决方案。

技术贡献

Bi-CMPStereo框架通过引入双向跨模态提示机制，解决了事件和帧之间的模态差距问题。其技术贡献包括：1）提出了立体规范化约束（SCC），以实现高保真跨模态对齐；2）设计了跨域嵌入适配器（CDEA），增强了目标域特征；3）通过双向成本体积实现稳健的非对称立体匹配。

新颖性

Bi-CMPStereo是首个在事件-帧非对称立体匹配中使用双向跨模态提示的框架。与现有方法相比，该框架不仅在精度上有显著提升，还在泛化能力上表现出色，解决了长期以来跨模态对齐中的信息损失问题。

局限性

在静态或低纹理区域，事件的稀疏性可能导致深度估计不够密集。
该方法在高计算成本的情况下可能不适用于实时应用。
对于某些极端光照条件，帧相机可能仍然存在模糊问题。

未来方向

未来的研究方向包括：1）进一步优化算法以降低计算成本；2）研究在更复杂场景下的应用，如夜间驾驶；3）探索与其他传感器（如LiDAR）的集成，以增强深度感知能力。

AI 总览摘要

在计算机视觉领域，立体匹配是一项关键技术，广泛应用于机器人、自动驾驶和增强现实等领域。然而，传统的帧相机在动态场景中常常受到时间分辨率限制和运动模糊的影响。事件相机作为一种新型的视觉传感器，能够以微秒级的时间分辨率检测像素级的光照变化，提供了更高的动态范围和极低的延迟。

本文提出了一种名为Bi-CMPStereo的双向跨模态提示框架，旨在解决事件和帧之间的模态差距问题。该框架通过在目标规范空间内学习精细对齐的立体表示，并将每种模态投射到事件和帧域中以整合互补表示。其核心组件包括立体规范化约束（SCC）和跨域嵌入适配器（CDEA），以增强目标域特征并实现高保真跨模态对齐。

在实验中，Bi-CMPStereo在DSEC和MVSEC数据集上均表现出色，显著优于现有的最先进方法。特别是在DSEC数据集上，Bi-CMPStereo在平均绝对误差（MAE）上达到了0.532，显示出其在复杂光照条件下的强大性能。此外，该框架在跨数据集泛化测试中也表现出色，验证了其强大的泛化能力。

Bi-CMPStereo框架的成功应用为3D感知提供了新的可能性，特别是在快速运动和复杂光照条件下。通过有效结合事件相机和帧相机的优势，该框架为机器人、自动驾驶和增强现实等领域提供了可靠的3D感知解决方案。

然而，该方法在静态或低纹理区域可能面临事件稀疏性的问题，导致深度估计不够密集。此外，尽管Bi-CMPStereo在精度上有显著提升，但其高计算成本可能限制了实时应用的可能性。未来的研究方向包括进一步优化算法以降低计算成本，并探索与其他传感器的集成，以增强深度感知能力。

深度分析

研究背景

立体匹配技术在计算机视觉领域具有重要地位，其主要任务是通过建立立体图像之间的像素对应关系来计算密集视差图，从而实现深度估计。近年来，深度学习推动了传统RGB相机立体匹配的显著进展，特别是基于迭代细化的方法表现出色。然而，传统的帧相机在动态场景中常常受到时间分辨率限制和运动模糊的影响。事件相机作为一种新型的生物启发式神经形态传感器，能够以微秒级的时间分辨率检测像素级的光照变化，提供了更高的动态范围和极低的延迟。这些特性使得事件相机在高动态场景中的立体匹配中具有明显优势。

核心问题

尽管事件相机和帧相机在特性上具有互补性，但二者之间的模态差距常常导致跨模态立体匹配中的特征空间对齐假设失效。现有的方法尝试通过域级对齐或特征级对齐来缓解这种差异，但往往忽视了域特定的判别特征，导致信息损失。因此，如何在不损失信息的情况下实现高保真跨模态对齐是一个关键挑战。

核心创新

本文提出了一种名为Bi-CMPStereo的双向跨模态提示框架，旨在解决事件和帧之间的模态差距问题。• 立体规范化约束（SCC）：通过在目标规范空间内学习精细对齐的立体表示，增强了目标域的判别特征。• 跨域嵌入适配器（CDEA）：通过在源域表示中显式激活目标域的判别特征，实现了细粒度的特征对齐。• 双向成本体积：通过在域间同时利用双向成本体积，实现了稳健的非对称立体匹配。

方法详解

Bi-CMPStereo框架的核心方法包括：• 使用立体规范化约束（SCC）在目标规范空间内学习精细对齐的立体表示。• 设计跨域嵌入适配器（CDEA），在源域表示中显式激活目标域的判别特征。• 通过双向成本体积实现稳健的非对称立体匹配。• 采用分层视觉变换（HVT）以增强上下文特征的鲁棒性和泛化能力。• 使用级联卷积GRU进行视差的迭代细化。

实验设计

实验在DSEC和MVSEC数据集上进行，使用平均绝对误差（MAE）、均方根误差（RMSE）和n像素误差（nPE）等指标进行评估。基线方法包括ZEST、SEVFI-Net、SE-CFF和DTC-SPADE等。消融研究验证了立体规范化约束（SCC）和跨域嵌入适配器（CDEA）在框架中的重要性。

结果分析

在DSEC数据集上，Bi-CMPStereo在平均绝对误差（MAE）上达到了0.532，显著优于现有的最先进方法。在MVSEC数据集的跨数据集泛化测试中，Bi-CMPStereo在所有测试场景中均表现出色，显示出其强大的泛化能力。消融研究表明，去除CDEA和SCC模块会导致性能显著下降，验证了这些组件在框架中的重要性。

应用场景

Bi-CMPStereo框架在机器人、自动驾驶和增强现实等领域具有广泛的应用前景。其高精度和强泛化能力使其在快速运动和复杂光照条件下的3D感知中具有重要意义。未来可以与其他传感器（如LiDAR）集成，以增强深度感知能力。

局限与展望

尽管Bi-CMPStereo在精度上有显著提升，但其高计算成本可能限制了实时应用的可能性。此外，在静态或低纹理区域，事件的稀疏性可能导致深度估计不够密集。未来的研究方向包括进一步优化算法以降低计算成本，并探索与其他传感器的集成。

通俗解读非专业人士也能看懂

想象一下，你在厨房里做饭。传统的帧相机就像是一台普通的相机，它可以拍摄出非常清晰的照片，但在快速移动的场景中，可能会出现模糊。而事件相机就像是一台高速摄像机，它可以捕捉到每一个细微的变化，甚至是你翻炒食物时的每一个动作。Bi-CMPStereo框架就像是一个聪明的厨师助手，它能够结合这两种相机的优势，帮助你在快速变化的厨房环境中，仍然能够精准地掌握每一个步骤。它通过一种叫做双向跨模态提示的技术，确保你在做饭时，不会错过任何一个关键细节。即使在光线变化很大的情况下，它也能帮助你保持高精度的操作。这就像是有了一个超级助手，让你在厨房里游刃有余。

简单解释像给14岁少年讲一样

嘿，小伙伴！你知道吗？有一种很酷的相机叫事件相机，它能像超级英雄一样，捕捉到每一个快速变化的瞬间，比如你在玩游戏时的每一个动作。而传统的相机就像是普通的相机，虽然拍得很清楚，但在快速运动时可能会有点模糊。现在，有一个叫Bi-CMPStereo的超级技术，它能把这两种相机的优点结合起来，就像是让蜘蛛侠和钢铁侠一起合作，解决那些快速变化和复杂光线的问题。它就像是一个聪明的助手，帮助你在任何情况下都能看到最清晰的画面。即使是在光线很暗的地方，它也能帮你看得清清楚楚。是不是很神奇？

术语表

事件相机 (Event Camera)

事件相机是一种能够以微秒级时间分辨率检测像素级光照变化的传感器，提供高动态范围和极低延迟。

在本文中，事件相机用于捕捉动态场景中的快速变化信息。

立体匹配 (Stereo Matching)

立体匹配是一种通过建立立体图像之间的像素对应关系来计算视差图的方法，用于深度估计。

本文中，立体匹配用于实现事件和帧之间的深度感知。

跨模态 (Cross-Modal)

跨模态是指在不同类型的数据源之间进行信息整合和对齐的过程。

本文中，跨模态用于结合事件相机和帧相机的优势。

双向跨模态提示 (Bidirectional Cross-Modal Prompting)

双向跨模态提示是一种在不同模态之间进行信息提示和对齐的技术，以实现高保真跨模态对齐。

本文中，该技术用于解决事件和帧之间的模态差距问题。

立体规范化约束 (Stereo Canonicalization Constraint)

立体规范化约束是一种通过在目标规范空间内学习精细对齐的立体表示的方法，以增强目标域的判别特征。

本文中，该约束用于实现高保真跨模态对齐。

跨域嵌入适配器 (Cross-Domain Embedding Adapter)

跨域嵌入适配器是一种在源域表示中显式激活目标域判别特征的技术，以实现细粒度特征对齐。

本文中，该适配器用于增强目标域特征。

分层视觉变换 (Hierarchical Visual Transformation)

分层视觉变换是一种通过生成多层次视觉变换来学习上下文特征的技术，以增强鲁棒性。

本文中，该技术用于防止上下文特征的捷径学习。

级联卷积GRU (Cascaded ConvGRU)

级联卷积GRU是一种用于视差迭代细化的技术，通过级联结构实现多尺度特征的精细对齐。

本文中，该技术用于视差的迭代细化。

DSEC数据集 (DSEC Dataset)

DSEC数据集是一个高质量的事件立体数据集，捕捉了户外驾驶场景中的事件流和同步强度帧。

本文中，该数据集用于评估Bi-CMPStereo的性能。

MVSEC数据集 (MVSEC Dataset)

MVSEC数据集是一个用于事件立体匹配的标准数据集，包含室内和室外场景的事件和帧数据。

本文中，该数据集用于跨数据集泛化测试。

开放问题这项研究留下的未解疑问

1 事件相机在静态或低纹理区域的稀疏性问题仍需解决，如何在这些区域实现密集的深度估计是一个开放问题。
2 如何在不增加计算成本的情况下提高Bi-CMPStereo的实时性能，是未来研究的一个重要方向。
3 在极端光照条件下，帧相机的模糊问题仍然存在，如何在这些条件下保持高精度是一个挑战。
4 现有的跨模态对齐方法在信息损失方面仍有改进空间，如何在不损失信息的情况下实现更高保真的对齐是一个研究热点。
5 与其他传感器（如LiDAR）的集成仍需进一步探索，以增强深度感知能力。

应用场景

近期应用

自动驾驶

Bi-CMPStereo可以用于自动驾驶中的3D感知，帮助车辆在快速运动和复杂光照条件下实现精准的环境感知。

机器人导航

在机器人导航中，该框架可以提供高精度的深度信息，帮助机器人在动态环境中安全移动。

增强现实

在增强现实应用中，Bi-CMPStereo可以提供更精确的深度感知，提升用户体验。

远期愿景

智能城市监控

通过集成Bi-CMPStereo，未来的智能城市监控系统可以实现更高效的动态场景监控和事件检测。

无人机导航

在无人机导航中，该技术可以帮助无人机在复杂环境中实现自主飞行和避障。

原文摘要

Conventional frame-based cameras capture rich contextual information but suffer from limited temporal resolution and motion blur in dynamic scenes. Event cameras offer an alternative visual representation with higher dynamic range free from such limitations. The complementary characteristics of the two modalities make event-frame asymmetric stereo promising for reliable 3D perception under fast motion and challenging illumination. However, the modality gap often leads to marginalization of domain-specific cues essential for cross-modal stereo matching. In this paper, we introduce Bi-CMPStereo, a novel bidirectional cross-modal prompting framework that fully exploits semantic and structural features from both domains for robust matching. Our approach learns finely aligned stereo representations within a target canonical space and integrates complementary representations by projecting each modality into both event and frame domains. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art methods in accuracy and generalization.

cs.CV

参考文献 (20)

DSEC: A Stereo Event Camera Dataset for Driving Scenarios

Mathias Gehrig, Willem Aarents, Daniel Gehrig 等

2021 496 引用 ⭐ 高影响力查看解读 →

Stereo Depth from Events Cameras: Concentrate and Focus on the Future

Yeongwoo Nam, Mohammad Mostafavi, Kuk-Jin Yoon 等

2022 76 引用 ⭐ 高影响力

Video Frame Interpolation With Stereo Event and Intensity Cameras

Chao Ding, Mingyuan Lin, Haijian Zhang 等

2023 13 引用 ⭐ 高影响力查看解读 →

Zero-Shot Event-Intensity Asymmetric Stereo via Visual Prompting from Image Domain

Hanyue Lou, Jinxiu Liang, Minggui Teng 等

2024 10 引用 ⭐ 高影响力

Discrete time convolution for fast event-based stereo

Kai Zhang, Kaiwei Che, Jianguo Zhang 等

2022 44 引用 ⭐ 高影响力

NeRF-Supervised Deep Stereo

Fabio Tosi, A. Tonioni, Daniele De Gregorio 等

2023 66 引用查看解读 →

Adam: A Method for Stochastic Optimization

Diederik P. Kingma, Jimmy Ba

2014 164949 引用查看解读 →

Depth AnyEvent: A Cross-Modal Distillation Paradigm for Event-Based Monocular Depth Estimation

Luca Bartolomei, Enrico Mannocci, Fabio Tosi 等

2025 7 引用查看解读 →

GA-Net: Guided Aggregation Net for End-To-End Stereo Matching

Feihu Zhang, V. Prisacariu, Ruigang Yang 等

2019 776 引用查看解读 →

Stereo Anywhere: Robust Zero-Shot Deep Stereo Matching Even Where Either Stereo or Mono Fail

Luca Bartolomei, Fabio Tosi, Matteo Poggi 等

2024 45 引用查看解读 →

On the Synergies Between Machine Learning and Binocular Stereo for Depth Estimation From Images: A Survey

Matteo Poggi, Fabio Tosi, Konstantinos Batsos 等

2021 167 引用

Event-Based Stereo Depth Estimation: A Survey

Suman Ghosh, Guillermo Gallego

2024 26 引用查看解读 →

GraftNet: Towards Domain Generalized Stereo Matching with a Broad-Spectrum and Task-Oriented Feature

Biyang Liu, Huimin Yu, Guodong Qi

2022 73 引用查看解读 →

Learning to Reconstruct HDR Images from Events, with Applications to Depth and Flow Prediction

Mohammad Mostafavi, Lin Wang, Kuk-Jin Yoon

2021 77 引用

ITSA: An Information-Theoretic Approach to Automatic Shortcut Avoidance and Domain Generalization in Stereo Matching Networks

Weiqin Chuah, Ruwan Tennakoon, R. Hoseinnezhad 等

2022 59 引用查看解读 →

AANet: Adaptive Aggregation Network for Efficient Stereo Matching

Haofei Xu, Juyong Zhang

2020 576 引用查看解读 →

Enhanced Event-based Dense Stereo via Cross-Sensor Knowledge Distillation

Haihao Zhang, Yunjian Zhang, Jianing Li 等

1 引用

Practical Stereo Matching via Cascaded Recurrent Network with Adaptive Correlation

Jiankun Li, Peisen Wang, Pengfei Xiong 等

2022 371 引用查看解读 →

MonSter: Marry Monodepth to Stereo Unleashes Power

Junda Cheng, Longliang Liu, Gangwei Xu 等

2025 50 引用

BridgeDepth: Bridging Monocular and Stereo Reasoning with Latent Alignment

Tongfan Guan, Jiaxin Guo, Chen Wang 等

2025 12 引用查看解读 →

Bidirectional Cross-Modal Prompting for Event-Frame Asymmetric Stereo

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

事件相机 (Event Camera)

立体匹配 (Stereo Matching)

跨模态 (Cross-Modal)

双向跨模态提示 (Bidirectional Cross-Modal Prompting)

立体规范化约束 (Stereo Canonicalization Constraint)

跨域嵌入适配器 (Cross-Domain Embedding Adapter)

分层视觉变换 (Hierarchical Visual Transformation)

级联卷积GRU (Cascaded ConvGRU)

DSEC数据集 (DSEC Dataset)

MVSEC数据集 (MVSEC Dataset)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

自动驾驶

机器人导航

增强现实

远期愿景

智能城市监控

无人机导航

原文摘要

参考文献 (20)

相关论文

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

SS3D: End2End Self-Supervised 3D from Web Videos

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问