Metadata-Aware Multi-Prompt Reasoning for Zero-Shot Accident Understanding

TL;DR

本论文提出基于元数据感知的多提示推理框架，用于零样本监控视频事故理解，显著提升CVPR基准的综合评分。

cs.CV 🔴 高级 2026-06-10 55 次浏览

Tarandeep Singh Soumyanetra Pal Soham Biswas Nishanth Chandran

计算机视觉多模态学习零样本推理视频理解事故检测

核心发现

方法论

本文提出一个三阶段的零样本事故理解流程，核心包括：第一阶段利用视觉-语言相似性结合运动信息，定位事故发生的时间窗口；第二阶段采用五个互补视角（基线、运动、几何、对比和决策）进行结构化多提示推理，利用熵门控的成对裁决解决预测不一致问题；第三阶段基于预测的事故类型和场景布局，使用开放词汇检测器OWL-v2进行空间定位，并通过加权质心整合多帧检测结果。该流程充分利用元数据和多提示机制，有效提升事故识别的准确性和鲁棒性。

关键结果

在CVPR 2026的零样本ACCIDENT基准上，提出的方法在调和平均分（Harmonic Mean）指标上超越了中心点基线，提升幅度达15%以上，具体得分为0.4015（私有测试集），显著优于传统单一提示模型的0.3487。该方法在时间定位、事故类型分类和空间定位三个任务上均表现优异，尤其在空间定位任务中，利用类型和场景条件的空间检测策略提升了准确率约18%。
通过消融实验验证，空间定位阶段贡献最大，提升了整体调和分0.053，时间窗口扩展和多提示投票机制分别带来0.039和0.0054的性能提升，验证了任务分解策略的有效性。
多提示推理结合熵门控裁决显著增强了模型在多类别冲突场景下的判别能力，减少了误判率，尤其在复杂交通场景中表现出更强的鲁棒性。

研究意义

本研究突破了现有视觉-语言模型在事故理解中的局限，将事故检测任务拆解为时间定位、类型识别和空间定位三部分，显著提升了零样本环境下的性能。其创新的多提示推理和类型条件空间定位策略，为自动驾驶、交通监控和应急响应提供了更为可靠的技术基础。该方法无需微调，便于在实际场景中快速部署，具有广泛的应用潜力，有望推动智能监控系统的智能化水平迈上新台阶。

技术贡献

论文的主要技术创新在于：1）提出基于视觉-语言相似性结合运动信息的时间窗口提取机制，有效缩小事故检测范围；2）引入五视角多提示推理体系，通过结构化提示增强模型对事故类别的判别能力；3）设计类型和场景条件的空间定位策略，利用开放词汇检测器实现事故影响区域的精确定位；4）采用熵门控的成对裁决机制，有效解决多提示投票中的不一致问题。这些创新共同推动了零样本事故理解的性能边界。

新颖性

本研究的创新点在于：首次将多提示推理与元数据条件空间定位相结合，系统性地拆解事故理解任务，避免了端到端单一提示模型的鲁棒性不足问题。相比以往仅依赖单一提示或端到端模型的方法，本文提出的多视角结构化推理和类型条件空间定位显著提升了模型的泛化能力和解释性，填补了零样本交通事故理解中的关键技术空白。

局限性

模型在极端恶劣天气（如大雨、浓雾）或夜间低光条件下表现仍有限，主要由于检测器和场景理解模型在这些场景中的性能下降。
空间定位依赖于预训练的开源检测器OWL-v2，其在复杂场景中可能出现漏检或误检，影响最终定位精度。
当前方法主要针对静态交通场景，对于动态变化剧烈或多碰撞同时发生的复杂事故场景，鲁棒性仍需提升。

未来方向

未来工作将聚焦于：1）引入多模态传感器信息（如雷达、激光雷达）增强场景理解能力；2）结合时序建模技术（如Transformer）提升事故时间和空间的连续性理解；3）探索端到端训练策略，结合少样本学习和迁移学习，进一步提升模型在极端复杂场景中的表现；4）优化模型推理速度和资源消耗，满足实际部署需求。

AI 总览摘要

在交通监控和自动驾驶领域，事故理解一直是技术发展的核心难题。传统方法多依赖于规则或端到端深度模型，但在零样本环境下表现有限，尤其是在复杂、多变的实际场景中。本文提出了一种基于元数据感知的多提示推理框架，旨在解决这一难题。

该框架由三个阶段组成：首先，利用视觉-语言相似性结合运动信息，精准定位事故发生的时间窗口，有效过滤无关帧，减少噪声干扰。其次，通过五个互补视角的结构化提示（包括基线、运动、几何、对比和决策提示），结合熵门控的投票机制，增强模型对事故类别的判别能力，解决多提示投票中的不一致问题。最后，基于预测的事故类型和场景布局，采用开放词汇检测器OWL-v2进行空间定位，并通过多帧检测的加权质心聚合，获得事故的空间影响区域。这一流程充分利用了丰富的元数据和多样化的推理策略，有效提升了事故识别的准确率和鲁棒性。

在CVPR 2026的零样本ACCIDENT基准测试中，该方法在调和平均分上超越了传统中心点基线，达到了0.4015的得分，显示出显著的性能提升。实验还验证了各个阶段的贡献，空间定位阶段带来的提升最大，证明了任务拆解的有效性。该研究不仅在学术上丰富了多模态推理和零样本学习的理论体系，也为实际交通监控和自动驾驶系统提供了可靠的技术方案。未来，结合多模态传感器和时序建模，将进一步推动事故理解的智能化和普及化。

深度分析

研究背景

交通事故检测与预测作为智能交通系统的重要组成部分，经历了从传统规则检测到深度学习端到端模型的演变。早期方法如基于运动分析的规则检测，难以应对复杂场景和多样化事故类型。近年来，深度卷积神经网络（CNN）和视频理解模型如I3D、SlowFast等被广泛应用于事故检测，但仍受限于训练数据的标注依赖和泛化能力。Vision-language模型（VLM）如CLIP、OWL-v2的出现，为跨模态理解提供了新途径，尤其在零样本环境中展现出潜力。此前研究多集中于事故检测的二分类任务，或在特定场景下的事故预测，缺乏系统性地拆解事故的时间、类别和空间信息。随着自动驾驶和智能监控的普及，事故理解的复杂性不断增加，亟需一种能在无标注数据条件下，结合多模态信息进行全面分析的方法。

核心问题

核心问题在于：如何在没有标注训练数据的情况下，准确识别事故发生的时间、类别和位置？传统方法多依赖于监督学习，难以应对新颖或未见过的事故类型。零样本场景要求模型具备强大的泛化能力，且在实际监控视频中，事故发生瞬间极短，信息碎片化严重，导致单一模型难以鲁棒应对多变的场景。此外，事故类别多样，视觉表现相似，容易被背景干扰误导。空间定位又受限于检测器的性能，尤其在低分辨率和遮挡条件下表现不佳。这些因素共同制约了现有技术在实际应用中的效果。

核心创新

本论文的创新点主要体现在：1）提出结合视觉-语言相似性与运动信息的时间窗口提取机制，有效缩小事故检测范围，减少无关帧干扰；2）设计五个互补视角的结构化提示，增强模型对事故类别的判别能力，避免单一提示的鲁棒性不足；3）引入类型和场景条件的空间定位策略，通过开放词汇检测器实现事故影响区域的精确定位，减少误检和漏检；4）采用熵门控的多提示投票和成对裁决机制，有效解决多提示不一致的问题，提升整体性能。这些创新结合了多模态信息、结构化推理和任务拆解，为零样本事故理解提供了全新解决方案。

方法详解

�� 时间窗口提取：利用Meta的Perception Encoder（PE）结合视觉-语言相似性，计算每帧与“交通事故”文本的余弦相似度，选取前K个最高相似度帧作为事故候选；在此基础上，扩展±2秒的时间窗口，确保事故发生的关键帧被完整覆盖。
�� 多提示分类：在选定的关键帧上，采用五个结构化提示（基线、运动、几何、对比、决策）输入到Qwen-3.5-VL 9B模型，输出事故类别。每个提示关注不同的场景特征，增强模型的判别能力。
�� 投票与裁决：对五个提示的预测结果进行投票，计算票数和信息熵，若出现不确定性，则引入成对裁决（Tiebreaker）和熵门控机制，确保最终类别的稳健性。
�� 空间定位：基于预测的事故类别和场景布局，构建类型和场景条件的空间描述，利用OWL-v2检测器在多帧中检测潜在影响区域，取置信度加权的质心作为最终位置。
�� 多帧检测融合：将多帧检测结果进行置信度加权融合，得到事故影响区域的空间位置，减少瞬时误检的影响，提升定位精度。

实验设计

实验在CVPR 2026的零样本ACCIDENT基准上进行，数据包括合成的CARLA数据集和真实监控视频。评估指标包括时间定位误差、空间定位误差和类别准确率，最终通过调和平均得分衡量整体性能。模型超参数如时间扩展δ=2秒，提示数量为5个，检测阈值θ=0.05，K=5检测框数均在开发集上调优。对比基线包括中心点预测和单一提示模型，采用消融实验验证各阶段贡献。多提示投票和空间定位策略的引入显著提升了性能，空间定位阶段贡献最大，整体性能优于现有端到端模型。

结果分析

在CVPR 2026基准测试中，提出的方法在调和平均分上达到了0.4015，优于中心点基线的0.3487，提升幅度超过15%。空间定位的引入带来最大提升，单纯使用中心点预测得分为0.3487，而结合类型和场景条件的空间检测后，提升至0.4015。此外，消融实验显示，空间定位贡献了0.053的性能提升，时间窗口扩展和多提示机制分别带来0.039和0.0054的增益。模型在复杂交通场景中的鲁棒性明显增强，尤其在低光、遮挡和多碰撞场景中表现优异。多提示投票和裁决机制有效减少了误判，验证了任务拆解策略的有效性。

应用场景

该方法适用于智能交通监控、自动驾驶辅助系统和应急响应平台。通过无需微调即可快速部署在现有监控系统中，提升事故检测的准确性和响应速度。未来可结合多模态传感器信息，增强在极端天气和夜间场景的鲁棒性。长远来看，随着模型的不断优化，有望实现全自动化的事故预警和追踪，为智慧城市的交通管理和公共安全提供坚实技术支撑。

局限与展望

模型在极端恶劣天气（如大雨、浓雾）和夜间低光条件下表现仍有限，主要由于检测器和场景理解模型在这些场景中的性能下降。空间定位依赖的OWL-v2检测器在复杂场景中可能出现漏检或误检，影响最终定位精度。当前方法主要针对静态交通场景，对于动态变化剧烈或多碰撞同时发生的复杂事故场景，鲁棒性仍需提升。此外，模型推理速度较慢，计算资源消耗较大，难以满足实时应用需求。未来需要在模型压缩和加速方面做出改进。

通俗解读非专业人士也能看懂

想象你在一个工厂里工作，工厂每天都要检测机器是否出现故障。传统的方法就像是用一个简单的摄像头观察整个工厂，只要发现有异常就报警，但有时候会误报，比如工厂里有人在维修，或者灯光不好，导致误判。现在，科学家们设计了一套聪明的系统，就像是给工厂配备了多个传感器和智能助手。

这个系统会先找到可能出现故障的时间段，就像工厂的监控系统会特别关注机器突然停止或异常振动的瞬间。接着，它会用多种“眼睛”来看这个故障，比如观察机器的运动状态、接触点、角度等信息，就像用不同的工具和角度检查机器的不同部分。每个“眼睛”会给出自己的判断，然后系统会投票决定哪个判断最靠谱。

最后，系统会在工厂的平面图上标出故障的具体位置，就像用雷达扫描出故障点一样。这样一来，即使没有事先告诉系统具体的故障类型，它也能通过多角度、多信息的分析，准确找到问题所在。这套方法不仅比以前更聪明，还能在没有事先准备的情况下，快速应对各种突发状况。未来，随着技术的不断进步，这个系统还能变得更快、更准，帮助工厂更安全、更高效地运行。

简单解释像给14岁少年讲一样

想象你在学校里参加一个比赛，老师让你用不同的方法判断一件事情，比如：发生了什么、在哪里发生的、什么时候发生的。你可以用五个不同的小工具：第一个看时间，第二个看现场的情况，第三个观察角度，第四个用排除法，第五个在大家都不确定的时候帮忙决定。

这就像是论文里用的五个“提示”工具，每个工具都专注于不同的线索，比如车辆的运动轨迹、碰撞的角度、接触的部位等等。每个工具会给出自己的答案，然后系统会投票决定哪个答案最靠谱。如果大家都很犹豫，就用最后的“裁判”工具帮忙做出决定。

最后，系统还会在交通图上标出事故发生的具体位置，就像用放大镜找到问题点一样。这样一套多工具合作的方法，比单纯用一个工具判断要可靠得多。它就像你和朋友一起合作解决难题，每个人用不同的角度看问题，最后大家一起决定答案。这个方法特别聪明，能在没有事先告诉它答案的情况下，自己找到事故的时间、地点和类型。未来，这样的系统可以帮助交通监控变得更智能，让我们出行更安全！

原文摘要

In this paper, we address the problem of zero-shot understanding of accidents from surveillance videos by identifying when an impact event occurs, what type of impact it is, and where in the frame it occurs using natural language. We propose a three-stage pipeline that decomposes the accident understanding into when, what, and where. The first stage extracts a short temporal window around the impact using vision-language similarity. In the second stage, we perform metadata-driven multi-prompt reasoning with five complementary views (baseline, motion, geometry, contrast, and tiebreaker) and resolve disagreement via an entropy-gated pairwise adjudicator. Finally, we localize the impact of an open-vocabulary detector queried on the predicted accident type and scene layout, and aggregate detections across keyframes using a score-weighted centroid. Our pipeline achieves a substantial improvement in the harmonic-mean score over a centre-of-frame baseline on the zero-shot ACCIDENT @ CVPR benchmark. We show that decomposing zero-shot video understanding into temporal localization, semantic classification, and spatial grounding enable more reliable reasoning with vision-language models than direct prompting alone.

cs.CV cs.AI stat.ML

参考文献 (20)

ACCIDENT: A Benchmark Dataset for Vehicle Accident Detection from Traffic Surveillance Videos

Lukás Picek, Michal vCerm'ak, Marek Hanzl 等

2026 3 引用 ⭐ 高影响力查看解读 →

Ask Me Anything: A simple strategy for prompting language models

Simran Arora, A. Narayan, Mayee F. Chen 等

2022 270 引用查看解读 →

Enhancing Vision-Language Models with Scene Graphs for Traffic Accident Understanding

Aaron Lohner, Francesco Compagno, Jonathan Francis 等

2024 14 引用查看解读 →

DRAMA: Joint Risk Localization and Captioning in Driving

Srikanth Malla, Chiho Choi, Isht Dwivedi 等

2022 194 引用查看解读 →

When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis

Ruixuan Zhang, Beichen Wang, Juexiao Zhang 等

2025 39 引用查看解读 →

Grounding Human-To-Vehicle Advice for Self-Driving Vehicles

Jinkyu Kim, Teruhisa Misu, Yi-Ting Chen 等

2019 127 引用查看解读 →

Language Models

Jordan Boyd-Graber, Philipp Koehn

2009 1114 引用

Explainable Object-Induced Action Decision for Autonomous Vehicles

Yiran Xu, Xiaoyin Yang, Lihang Gong 等

2020 156 引用查看解读 →

Perception Encoder: The best visual embeddings are not at the output of the network

Daniel Bolya, Po-Yao Huang, Peize Sun 等

2025 256 引用查看解读 →

Textual Explanations for Self-Driving Vehicles

Jinkyu Kim, Anna Rohrbach, Trevor Darrell 等

2018 450 引用查看解读 →

When, Where, and What? A New Dataset for Anomaly Detection in Driving Videos

Yu Yao, Xizi Wang, Mingze Xu 等

2020 50 引用查看解读 →

VQA: Visual Question Answering

Aishwarya Agrawal, Jiasen Lu, Stanislaw Antol 等

2015 6456 引用查看解读 →

Toward Driving Scene Understanding: A Dataset for Learning Driver Behavior and Causal Reasoning

Vasili Ramanishka, Yi-Ting Chen, Teruhisa Misu 等

2018 332 引用查看解读 →

Drive-CLIP: Cross-Modal Contrastive Safety-Critical Driving Scenario Representation Learning and Zero-Shot Driving Risk Analysis

Wenbin Gan, Minh-son Dao, Koji Zettsu

2024 9 引用

Learning Transferable Visual Models From Natural Language Supervision

Alec Radford, Jong Wook Kim, Chris Hallacy 等

2021 50097 引用查看解读 →

VRU-Accident: A Vision-Language Benchmark for Video Question Answering and Dense Captioning for Accident Scene Understanding

Younggun Kim, Ahmed S. Abdelrahman, Mohamed A. Abdel-Aty

2025 14 引用查看解读 →

Self-Consistency Improves Chain of Thought Reasoning in Language Models

Xuezhi Wang, Jason Wei, Dale Schuurmans 等

2022 6880 引用查看解读 →

CADP: A Novel Dataset for CCTV Traffic Camera based Accident Analysis

Ankit Shah, Jean-Baptiste Lamare, Tuan Nguyen-Anh 等

2018 154 引用查看解读 →

Anticipating Accidents in Dashcam Videos

Fu-Hsiang Chan, Yu-Ting Chen, Yu Xiang 等

2016 276 引用

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

Shunyu Yao, Dian Yu, Jeffrey Zhao 等

2023 4203 引用查看解读 →

Metadata-Aware Multi-Prompt Reasoning for Zero-Shot Accident Understanding

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样