Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

TL;DR

提出VisAnomReasoner，通过微调大规模视觉-语言模型实现时间序列异常检测，Precision提升21.23%，F1提升23.87%。

cs.AI 🔴 高级 2026-05-29 39 次浏览

Xiaona Zhou Muntasir Wahed Tianjiao Yu Constantin Brif Ismini Lourentzou

时间序列分析视觉-语言模型异常检测多模态推理模型微调

核心发现

方法论

本文提出一种基于视觉-语言模型（VLMs）的时间序列异常检测框架，核心为构建名为VisAnomBench的多领域、多类型异常解释增强数据集。通过将时间序列图像作为输入，结合细粒度的任务特定奖励机制，利用多模态微调技术优化参数效率极高的模型VisAnomReasoner。该模型采用多层Transformer架构，结合视觉特征提取和自然语言生成能力，实现对异常区间的准确定位及合理解释。训练过程中，模型在多源公共时间序列数据集（如UCR-TSAD、GutenTAG、TSB-AD-U）上进行监督学习，利用基于异常区间的F1、精确率等指标作为奖励信号，提升模型的泛化能力。模型输出包括异常区间的时间边界和对应的自然语言解释，强调视觉证据与推理链的紧密结合。该方法突破了传统仅依赖数值分数或二元标签的局限，实现了异常检测的可解释性和可视化一致性。

关键结果

在VisAnomBench基准测试中，VisAnomReasoner的7B版本在异常定位的精确率和F1分数上分别比所有基线模型提升了至少21.23和23.87个百分点，达到74.30%的精确率和72.17%的F1值，显著优于大规模通用VLMs（如GPT-4o基础模型）和专用时间序列模型（如AnomLLM、LLM-TSAD）。
在TSB-AD-U数据集上的测试中，VisAnomReasoner的7B版本在精确率和F1指标上分别比次优模型提升了9.57和13.39个百分点，验证了其跨数据集的良好泛化能力。模型在异常区间的边界定位上也优于所有对比模型，Overlap指标提升超过11个百分点，显示出更紧密的时间边界匹配。
通过消融实验，微调策略显著降低了模型的误报率，F1值提升超过13个百分点，验证了基于解释增强的监督机制在提升模型可解释性和准确性方面的有效性。

研究意义

该研究在时间序列异常检测领域实现了多模态推理的突破，解决了传统方法缺乏可解释性和视觉证据支持的问题。通过引入自然语言解释与视觉证据的结合，不仅提升了检测的准确率，也增强了模型的决策透明度，为工业监控、医疗诊断和网络安全等关键应用提供了强有力的技术支撑。这一方法的提出，推动了多模态AI在复杂时间序列分析中的应用边界，有望引领未来智能监测系统的设计新方向。

技术贡献

本文的技术贡献主要体现在：首先，提出将时间序列异常检测定义为基于视觉-语言推理的任务，结合异常区间的空间位置与自然语言解释，实现端到端的联合学习。其次，构建了VisAnomBench数据集，集成多领域、多类型的异常场景，配备高质量的自然语言解释，极大丰富了监督信号。再次，设计了参数高效的VisAnomReasoner模型，采用多层Transformer架构，结合视觉特征提取器和自然语言生成模块，通过基于奖励的微调策略，有效提升了异常检测的精度和解释质量。最后，系统性地在多个公开数据集上进行评估，验证了模型在异常定位、边界匹配和解释合理性方面的优越性能，超越了多种基线模型，包括大规模通用VLMs和专用时间序列模型。

新颖性

本研究的创新点在于首次将时间序列异常检测转化为视觉-语言推理任务，强调视觉证据与自然语言解释的结合，突破了传统仅依赖数值标签的限制。提出的解释增强数据集和奖励机制，使模型不仅能定位异常，还能生成符合视觉证据的自然语言解释，显著提升了模型的可解释性和实用性。这在现有文献中尚属首次，填补了多模态推理在时间序列异常检测中的应用空白，推动了多模态AI技术在实际场景中的落地。

局限性

模型在极端复杂或噪声极高的时间序列中仍可能出现误判，尤其是在异常信号模糊或边界模糊的情况下，模型的解释合理性可能受到影响。
当前方法对长时间跨度的连续异常检测仍存在一定挑战，尤其是在极大数据量和多模态信息融合方面，计算成本较高，模型推理速度有待提升。
虽然模型在多个数据集上表现优异，但在某些特定行业或极端场景（如金融高频交易、极端天气监测）中的适应性和鲁棒性仍需进一步验证。

未来方向

未来工作将聚焦于提升模型在极端复杂环境下的鲁棒性，探索多模态信息融合的优化策略，减少计算成本，加快推理速度。同时，将考虑引入主动学习和在线学习机制，以适应动态变化的时间序列环境。此外，计划扩展模型的多任务能力，不仅局限于异常检测，还包括预测、分类等多模态任务，推动多模态AI在工业4.0、智慧医疗等领域的深度应用。

AI 总览摘要

时间序列异常检测在工业监控、医疗诊断和网络安全等领域扮演着关键角色。传统方法多依赖数值分数或二元标签，缺乏对异常原因的解释，限制了其应用的透明度和可信度。近年来，视觉-语言模型（VLMs）在多模态推理方面取得了突破，能够结合视觉证据和自然语言生成，展现出强大的理解能力。然而，直接将VLMs应用于时间序列异常检测面临诸多挑战，包括时间序列缺乏明确的空间结构、缺少细粒度的监督信号以及模型难以实现端到端的异常定位与解释。为此，本文提出了VisAnomReasoner，一种基于微调的参数高效模型，专为时间序列异常检测设计。核心创新在于构建名为VisAnomBench的多领域、多类型异常解释增强数据集，结合基于奖励的训练机制，实现异常区间的精确定位和合理解释。模型采用多层Transformer架构，融合视觉特征提取和自然语言生成能力，能够在多个公开数据集上实现超越基线模型的性能。实验结果显示，VisAnomReasoner在异常定位的精确率和F1指标上分别比最优对比模型提升了超过21和23个百分点，验证了其在跨场景泛化和解释合理性方面的优越性。这一研究不仅推动了多模态AI在时间序列分析中的应用，也为工业智能监控、医疗诊断等提供了更具透明度和可信度的解决方案。未来，模型将继续优化鲁棒性和效率，拓展多任务能力，助力智能系统的全面升级。

深度解读

原文摘要

Recent advances in Vision-Language Models (VLMs) have achieved impressive performance across many tasks, yet prior studies report unsatisfactory performance when applying large language or multimodal models to finding abnormal patterns in sequential data. Public anomaly detection benchmarks typically provide interval annotations but not natural-language rationales, making it difficult to fine-tune VLMs to produce grounded, interpretable decisions. To address this gap, we construct VisAnomBench, a curated benchmark built from public time-series datasets and augmented with high-quality anomaly explanations selected from multiple large VLMs using fine-grained, task-specific rewards. Through fine-tuning on this benchmark, we develop VisAnomReasoner, a parameter-efficient VLM for time-series anomaly detection. Experimental results on VisAnomBench show that VisAnomReasoner achieves more accurate anomaly localization and consistently outperforms all baselines, with improvements of at least 21.23 and 23.87 percentage points in precision and F1, respectively. Additional experiments on the TSB-AD-U benchmark demonstrate strong cross-benchmark generalization, with VisAnomReasoner improving precision and F1 by 9.57 and 13.39 percentage points, respectively.

cs.AI

参考文献 (20)

TSB-UAD: An End-to-End Benchmark Suite for Univariate Time-Series Anomaly Detection

John Paparrizos, Yuhao Kang, Paul Boniol 等

2022 139 引用 ⭐ 高影响力

Anomaly Detection in Time Series: A Comprehensive Evaluation

Sebastian Schmidl, Phillip Wenig, Thorsten Papenbrock

2022 579 引用 ⭐ 高影响力

Robotic Visual Instruction

Yanbang Li, Ziyang Gong, Haoyang Li 等

2025 22 引用 ⭐ 高影响力查看解读 →

Can LLMs Understand Time Series Anomalies?

Zihao Zhou, Rose Yu

2024 46 引用 ⭐ 高影响力查看解读 →

Harnessing Vision-Language Models for Time Series Anomaly Detection

Zelin He, Sarah Alnegheimish, Matthew Reimherr

2025 11 引用 ⭐ 高影响力查看解读 →

LERa: Replanning with Visual Feedback in Instruction Following

S. Pchelintsev, Maxim A. Patratskiy, Anatoly Onishchenko 等

2025 8 引用 ⭐ 高影响力查看解读 →

Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy

Jiehui Xu, Haixu Wu, Jianmin Wang 等

2021 1000 引用查看解读 →

Can Multimodal LLMs Perform Time Series Anomaly Detection?

Xiongxiao Xu, Haoran Wang, Yueqing Liang 等

2025 19 引用查看解读 →

A decoder-only foundation model for time-series forecasting

Abhimanyu Das, Weihao Kong, Rajat Sen 等

2023 658 引用查看解读 →

Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement

Yaxuan Kong, Yiyuan Yang, Yoontae Hwang 等

2025 65 引用查看解读 →

Effective Training Data Synthesis for Improving MLLM Chart Understanding

Yuwei Yang, Zeyu Zhang, Yunzhong Hou 等

2025 24 引用查看解读 →

SmolVLM: Redefining small and efficient multimodal models

Andrés Marafioti, Orr Zohar, Miquel Farr'e 等

2025 206 引用查看解读 →

Anomaly Detection Using Autoencoders with Nonlinear Dimensionality Reduction

M. Sakurada, T. Yairi

2014 1337 引用

Gemma 3 Technical Report

Gemma Team Aishwarya Kamath, Johan Ferret, Shreya Pathak 等

2025 1404 引用查看解读 →

Temporal signals to images: Monitoring the condition of industrial assets with deep learning image processing algorithms

G. R. Garcia, Gabriel Michau, Mélanie Ducoffe 等

2020 64 引用

AXIS: Explainable Time Series Anomaly Detection with Large Language Models

Tian Lan, Hao Duong Le, Jinbo Li 等

2025 2 引用查看解读 →

Ensemble Grammar Induction For Detecting Anomalies in Time Series

Yifeng Gao, Jessica Lin, C. Brif

2020 17 引用查看解读 →

Contextual and Seasonal LSTMs for Time Series Anomaly Detection

Ling Zhang, Qingming Li, Yong Yang 等

2026 1 引用查看解读 →

TempoGPT: Enhancing Time Series Reasoning via Quantizing Embedding

Haochuan Zhang, Chunhua Yang, Jie Han 等

2025 7 引用查看解读 →

TimeMaster: Training Time-Series Multimodal LLMs to Reason via Reinforcement Learning

Junru Zhang, Lang Feng, Xu Guo 等

2025 15 引用查看解读 →

Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

参考文献 (20)

相关论文

SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment

Iteris: Agentic Research Loops for Computational Mathematics

Choosing the Lens: Strategic Perspective Activation in Context-Dependent Argumentation

SchGen: PCB Schematic Generation with Semantic-Grounded Code Representations

Calibrating Conservatism for Scalable Oversight

MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation