CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks

TL;DR

CLASP模型通过XGBoost分类器检测恶意令牌，达到95.9%令牌级F1分数。

cs.CL 🔴 高级 2026-03-13 11 次浏览

Alexandre Le Mercier Thomas Demeester Chris Develder

状态空间模型隐藏状态投毒攻击 XGBoost 简历筛选安全防御

核心发现

方法论

本文提出了CLASP模型，通过将隐藏状态投毒攻击(HiSPA)的缓解任务框架化为令牌级别的二分类问题，利用Mamba的块输出嵌入(BOE)特征，结合XGBoost分类器，识别恶意令牌。该方法在不增加计算开销的情况下，能够有效检测和拦截潜在的攻击。

关键结果

CLASP在包含2,483份简历的语料库上进行评估，总计9.5M个令牌，检测恶意令牌的令牌级F1分数为95.9%，文档级F1分数为99.3%。
在留一交叉验证中，CLASP在未见攻击模式下的文档级F1分数仍然高达96.9%。
在结构新颖的触发器下的聚类交叉验证中，CLASP保持了91.6%的平均文档级F1分数。

研究意义

本研究通过提出CLASP模型，有效地解决了状态空间模型(SSM)和其混合变体在面对隐藏状态投毒攻击(HiSPA)时的脆弱性问题。该模型不仅在检测效率上表现出色，还能在不影响下游模型的情况下独立运行，适合在实际环境中作为轻量级前线防御工具使用。

技术贡献

CLASP模型的技术贡献在于其创新性地利用Mamba的块输出嵌入(BOE)特征，结合XGBoost分类器，实现了对恶意令牌的高效检测。这种方法与现有的基于Transformer的防御策略不同，专注于SSM特有的脆弱性，提供了新的工程可能性。

新颖性

CLASP是首个专门针对隐藏状态投毒攻击(HiSPA)的防御模型。与以往的研究相比，它不仅识别恶意令牌，还能在未见攻击模式下保持高效检测能力，填补了现有文献中的空白。

局限性

CLASP在处理结构新颖的触发器时性能有所下降，尤其是在聚类交叉验证的第三折中，F1分数降至82.17%。
该模型假设所有可能的触发模式在训练集中都有代表性，这在实际应用中可能不成立。
由于时间不变性约束，CLASP在令牌级别的性能受到限制，无法利用上下文信息来区分模糊令牌。

未来方向

未来的研究方向包括：1) 提高CLASP在处理结构新颖触发器时的性能；2) 探索更广泛的注入攻击防御策略；3) 研究该模型在其他递归架构中的可转移性，并在大规模部署前开发系统化的模型安全评估框架。

AI 总览摘要

在现代语言模型的应用中，隐藏状态投毒攻击(HiSPA)是一种新兴的威胁，特别是对于状态空间模型(SSM)及其混合变体。现有的防御策略主要针对基于Transformer的模型，而SSM在面对HiSPA时表现出独特的脆弱性。为了解决这一问题，本文提出了CLASP模型，将HiSPA的缓解任务框架化为令牌级别的二分类问题。通过利用Mamba的块输出嵌入(BOE)特征，结合XGBoost分类器，CLASP能够有效检测和拦截潜在的攻击，而不增加计算开销。

在实验中，CLASP在包含2,483份简历的语料库上进行评估，总计9.5M个令牌，检测恶意令牌的令牌级F1分数为95.9%，文档级F1分数为99.3%。在留一交叉验证中，CLASP在未见攻击模式下的文档级F1分数仍然高达96.9%。在结构新颖的触发器下的聚类交叉验证中，CLASP保持了91.6%的平均文档级F1分数。这表明CLASP不仅在已知攻击模式下表现出色，还能在未见攻击模式下保持高效检测能力。

CLASP的技术贡献在于其创新性地利用Mamba的块输出嵌入(BOE)特征，结合XGBoost分类器，实现了对恶意令牌的高效检测。这种方法与现有的基于Transformer的防御策略不同，专注于SSM特有的脆弱性，提供了新的工程可能性。CLASP的独立性使其能够在不影响下游模型的情况下运行，适合在实际环境中作为轻量级前线防御工具使用。

然而，CLASP在处理结构新颖的触发器时性能有所下降，尤其是在聚类交叉验证的第三折中，F1分数降至82.17%。此外，该模型假设所有可能的触发模式在训练集中都有代表性，这在实际应用中可能不成立。由于时间不变性约束，CLASP在令牌级别的性能受到限制，无法利用上下文信息来区分模糊令牌。

未来的研究方向包括：提高CLASP在处理结构新颖触发器时的性能，探索更广泛的注入攻击防御策略，以及研究该模型在其他递归架构中的可转移性。通过这些努力，CLASP有望在语言模型的安全防御中发挥更大的作用。

深度分析

研究背景

近年来，随着大规模语言模型(LLM)在文档处理工作流中的广泛应用，注入攻击成为一个日益严重的安全威胁。尤其是提示注入攻击(PIA)，被认为是最具实际威胁的攻击之一。现有的防御策略主要集中在基于Transformer的模型上，通过令牌级别的检测和专门的微调策略来抵御PIA。然而，随着状态空间模型(SSM)及其混合变体的兴起，隐藏状态投毒攻击(HiSPA)成为一个新的挑战。SSM，如Mamba，通过线性复杂度实现了与Transformer相媲美的性能，但其独特的递归动态使其在面对HiSPA时表现出脆弱性。HiSPA通过对SSM的隐藏状态进行投毒，导致模型记忆的不可逆损坏，严重影响模型的性能和可靠性。

核心问题

隐藏状态投毒攻击(HiSPA)是一种新兴的威胁，特别是对于状态空间模型(SSM)及其混合变体。HiSPA通过对SSM的隐藏状态进行投毒，导致模型记忆的不可逆损坏，严重影响模型的性能和可靠性。现有的防御策略主要针对基于Transformer的模型，而SSM在面对HiSPA时表现出独特的脆弱性。如何有效检测和拦截HiSPA，成为一个亟待解决的问题。

核心创新

CLASP模型的创新之处在于其将隐藏状态投毒攻击(HiSPA)的缓解任务框架化为令牌级别的二分类问题。通过利用Mamba的块输出嵌入(BOE)特征，结合XGBoost分类器，CLASP能够有效检测和拦截潜在的攻击，而不增加计算开销。与现有的基于Transformer的防御策略不同，CLASP专注于SSM特有的脆弱性，提供了新的工程可能性。CLASP的独立性使其能够在不影响下游模型的情况下运行，适合在实际环境中作为轻量级前线防御工具使用。

方法详解

�� CLASP模型通过将隐藏状态投毒攻击(HiSPA)的缓解任务框架化为令牌级别的二分类问题。
�� 利用Mamba的块输出嵌入(BOE)特征，结合XGBoost分类器，识别恶意令牌。
�� 在不增加计算开销的情况下，能够有效检测和拦截潜在的攻击。
�� 通过实验验证，CLASP在包含2,483份简历的语料库上进行评估，总计9.5M个令牌，检测恶意令牌的令牌级F1分数为95.9%，文档级F1分数为99.3%。

实验设计

实验设计包括在包含2,483份简历的语料库上进行评估，总计9.5M个令牌。使用控制注入的方式，评估CLASP在检测恶意令牌时的性能。通过留一交叉验证和聚类交叉验证，测试CLASP在未见攻击模式下的泛化能力。实验结果表明，CLASP在已知攻击模式下表现出色，并在未见攻击模式下保持高效检测能力。

结果分析

实验结果表明，CLASP在包含2,483份简历的语料库上进行评估，总计9.5M个令牌，检测恶意令牌的令牌级F1分数为95.9%，文档级F1分数为99.3%。在留一交叉验证中，CLASP在未见攻击模式下的文档级F1分数仍然高达96.9%。在结构新颖的触发器下的聚类交叉验证中，CLASP保持了91.6%的平均文档级F1分数。

应用场景

CLASP模型适用于需要防御隐藏状态投毒攻击(HiSPA)的场景，如简历筛选、合规性检查、客户支持等文档处理工作流。由于其独立性和高效性，CLASP可以作为轻量级前线防御工具，保护基于状态空间模型(SSM)的系统免受潜在攻击。

局限与展望

CLASP在处理结构新颖的触发器时性能有所下降，尤其是在聚类交叉验证的第三折中，F1分数降至82.17%。此外，该模型假设所有可能的触发模式在训练集中都有代表性，这在实际应用中可能不成立。由于时间不变性约束，CLASP在令牌级别的性能受到限制，无法利用上下文信息来区分模糊令牌。未来的研究方向包括提高CLASP在处理结构新颖触发器时的性能，探索更广泛的注入攻击防御策略，以及研究该模型在其他递归架构中的可转移性。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。你有一个大锅，里面装满了各种食材。每个食材都有自己的味道，就像每个令牌都有自己的信息。在这个过程中，有人偷偷往锅里加了一些奇怪的调料，这些调料会改变整个菜的味道，让它变得不好吃。这就像隐藏状态投毒攻击(HiSPA)，它通过恶意令牌改变模型的记忆，让模型做出错误的判断。CLASP模型就像一个聪明的厨师，它能在调料被加入之前发现这些奇怪的调料，并把它们挑出来，这样你的菜就不会被破坏。CLASP通过分析每个食材的特性，识别出那些可能有问题的调料，并在它们影响整个菜之前将其移除。这样，即使有人试图破坏你的菜，CLASP也能帮助你保持菜的美味。这种方法不仅有效，而且不会增加额外的工作量，就像一个轻松的厨房助手，帮助你做出美味的菜肴。

简单解释像给14岁少年讲一样

嘿，小伙伴们！你们知道吗，有时候电脑也会被捣蛋鬼欺负哦！就像在玩游戏的时候，有人偷偷改了规则，让你总是输。电脑里的大脑也会被一些坏家伙用奇怪的代码欺骗，让它做出错误的决定。这种坏家伙的攻击叫做隐藏状态投毒攻击(HiSPA)。

不过，别担心！科学家们发明了一种叫做CLASP的超级工具，它就像一个聪明的侦探，能在坏家伙捣乱之前发现他们的诡计。CLASP会仔细检查每一行代码，找出那些看起来不太对劲的地方，然后把它们移除，这样电脑就不会被欺骗啦！

想象一下，你在学校里做实验，有人偷偷往你的试管里加了奇怪的东西，让实验结果变得很奇怪。CLASP就像你的好朋友，帮你在实验开始前检查试管，确保里面没有奇怪的东西。这样，你的实验就不会被破坏啦！

所以，下次当你听到有人说起CLASP的时候，就知道它是电脑世界里的超级英雄，保护我们的电脑不被坏家伙欺负哦！

术语表

状态空间模型 (State Space Model)

一种替代Transformer的高效模型，具有线性复杂度，适合长序列处理。

用于替代Transformer以提高效率。

隐藏状态投毒攻击 (Hidden State Poisoning Attack)

通过恶意令牌改变SSM的隐藏状态，导致不可逆的记忆损坏。

对SSM的攻击，影响模型性能。

块输出嵌入 (Block Output Embedding)

Mamba模型的输出特征，用于识别恶意令牌的特征。

CLASP模型利用BOE进行恶意令牌检测。

XGBoost

一种高效的梯度提升决策树算法，用于分类任务。

CLASP模型使用XGBoost进行恶意令牌分类。

简历筛选 (Resume Screening)

使用LLM筛选简历以识别最佳候选人的过程。

CLASP在简历筛选场景中进行评估。

留一交叉验证 (Leave-One-Out Cross-Validation)

一种验证方法，每次使用一个样本作为测试集，其余样本作为训练集。

用于评估CLASP在未见攻击模式下的性能。

聚类交叉验证 (Clustered Cross-Validation)

一种验证方法，将数据分为结构相似的簇，测试不同簇的泛化能力。

用于测试CLASP在结构新颖触发器下的性能。

令牌级F1分数 (Token-Level F1 Score)

衡量分类模型在令牌级别上的精确度和召回率的调和平均。

CLASP在检测恶意令牌时的性能指标。

文档级F1分数 (Document-Level F1 Score)

衡量分类模型在文档级别上的精确度和召回率的调和平均。

CLASP在检测恶意文档时的性能指标。

时间不变性约束 (Time-Invariance Constraint)

CLASP模型在令牌级别检测时不使用上下文信息的限制。

导致CLASP在令牌级别性能受限。

开放问题这项研究留下的未解疑问

1 如何提高CLASP在处理结构新颖触发器时的性能？现有的模型在面对未见攻击模式时性能有所下降，尤其是在聚类交叉验证的第三折中，F1分数降至82.17%。需要探索新的方法来增强模型的泛化能力。
2 CLASP模型假设所有可能的触发模式在训练集中都有代表性，但在实际应用中，这一假设可能不成立。如何在不增加计算开销的情况下，扩展模型的适用范围？
3 时间不变性约束限制了CLASP在令牌级别的性能。如何在保持模型效率的同时，利用上下文信息来提高检测精度？
4 现有的防御策略主要针对基于Transformer的模型，而SSM在面对HiSPA时表现出独特的脆弱性。如何开发专门针对SSM的防御策略，以提高其安全性？
5 CLASP在简历筛选场景中表现出色，但在其他文档处理工作流中的适用性尚未得到验证。如何评估和扩展CLASP在不同应用场景中的性能？

应用场景

近期应用

简历筛选

CLASP可以用于企业的人力资源部门，在简历筛选过程中检测和拦截潜在的恶意注入攻击，确保筛选结果的准确性和公平性。

合规性检查

在合规性检查中，CLASP可以作为前线防御工具，保护文档处理系统免受隐藏状态投毒攻击，确保合规性审查的可靠性。

客户支持

CLASP可以用于客户支持系统，检测和拦截潜在的恶意注入攻击，保护系统的稳定性和客户数据的安全性。

远期愿景

跨领域应用

随着CLASP在不同文档处理工作流中的成功应用，其方法可以推广到其他领域，如金融、医疗等，提供更广泛的安全防护。

递归架构的安全防护

未来，CLASP的技术可以扩展到其他递归架构，为更广泛的模型提供安全防护，推动模型安全领域的发展。

原文摘要

State space models (SSMs) like Mamba have gained significant traction as efficient alternatives to Transformers, achieving linear complexity while maintaining competitive performance. However, Hidden State Poisoning Attacks (HiSPAs), a recently discovered vulnerability that corrupts SSM memory through adversarial strings, pose a critical threat to these architectures and their hybrid variants. Framing the HiSPA mitigation task as a binary classification problem at the token level, we introduce the CLASP model to defend against this threat. CLASP exploits distinct patterns in Mamba's block output embeddings (BOEs) and uses an XGBoost classifier to identify malicious tokens with minimal computational overhead. We consider a realistic scenario in which both SSMs and HiSPAs are likely to be used: an LLM screening résumés to identify the best candidates for a role. Evaluated on a corpus of 2,483 résumés totaling 9.5M tokens with controlled injections, CLASP achieves 95.9% token-level F1 score and 99.3% document-level F1 score on malicious tokens detection. Crucially, the model generalizes to unseen attack patterns: under leave-one-out cross-validation, performance remains high (96.9% document-level F1), while under clustered cross-validation with structurally novel triggers, it maintains useful detection capability (91.6% average document-level F1). Operating independently of any downstream model, CLASP processes 1,032 tokens per second with under 4GB VRAM consumption, potentially making it suitable for real-world deployment as a lightweight front-line defense for SSM-based and hybrid architectures. All code and detailed results are available at https://anonymous.4open.science/r/hispikes-91C0.

cs.CL

参考文献 (20)

Attention is All you Need

Ashish Vaswani, Noam Shazeer, Niki Parmar 等

2017 169218 引用 ⭐ 高影响力查看解读 →

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Leo Gao, Stella Biderman, Sid Black 等

2020 2673 引用 ⭐ 高影响力查看解读 →

Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models

Nvidia Aaron Blakeman, Aarti Basant, Abhinav Khattar 等

2025 53 引用 ⭐ 高影响力查看解读 →

Green AI: exploring carbon footprints, mitigation strategies, and trade offs in large language model training

V. Liu, Yiqiao Yin

2024 59 引用 ⭐ 高影响力查看解读 →

Hidden State Poisoning Attacks against Mamba-based Language Models

A. Mercier, Chris Develder, Thomas Demeester

2026 1 引用 ⭐ 高影响力查看解读 →

PISanitizer: Preventing Prompt Injection to Long-Context LLMs via Prompt Sanitization

Runpeng Geng, Yanting Wang, Chenlong Yin 等

2025 3 引用 ⭐ 高影响力查看解读 →

XGBoost: A Scalable Tree Boosting System

Tianqi Chen, Carlos Guestrin

2016 50380 引用 ⭐ 高影响力查看解读 →

Carbon Emissions and Large Neural Network Training

David A. Patterson, Joseph Gonzalez, Quoc V. Le 等

2021 980 引用查看解读 →

Prompt Injection attack against LLM-integrated Applications

Yi Liu, Gelei Deng, Yuekang Li 等

2023 641 引用查看解读 →

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Tri Dao, Albert Gu

2024 1248 引用查看解读 →

Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information

Zhengmian Hu, Gang Wu, Saayan Mitra 等

2023 39 引用查看解读 →

Efficiently Modeling Long Sequences with Structured State Spaces

Albert Gu, Karan Goel, Christopher R'e

2021 3185 引用查看解读 →

Hymba: A Hybrid-head Architecture for Small Language Models

Xin Dong, Y. Fu, Shizhe Diao 等

2024 68 引用查看解读 →

Recurrent Neural Networks (RNNs): A gentle Introduction and Overview

Robin M. Schmidt

2019 252 引用查看解读 →

Formalizing and Benchmarking Prompt Injection Attacks and Defenses

Yupei Liu, Yuqi Jia, Runpeng Geng 等

2023 252 引用查看解读 →

Ignore Previous Prompt: Attack Techniques For Language Models

Fábio Perez, I. Ribeiro

2022 702 引用查看解读 →

Attention is All You Need to Defend Against Indirect Prompt Injection Attacks in LLMs

Yinan Zhong, Qianhao Miao, Yanjiao Chen 等

2025 2 引用查看解读 →

Can Indirect Prompt Injection Attacks Be Detected and Removed?

Yulin Chen, Haoran Li, Yuan Sui 等

2025 36 引用查看解读 →

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Albert Gu, Tri Dao

2023 6076 引用查看解读 →

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Liliang Ren, Yang Liu, Yadong Lu 等

2024 130 引用查看解读 →

CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

状态空间模型 (State Space Model)

隐藏状态投毒攻击 (Hidden State Poisoning Attack)

块输出嵌入 (Block Output Embedding)

XGBoost

简历筛选 (Resume Screening)

留一交叉验证 (Leave-One-Out Cross-Validation)

聚类交叉验证 (Clustered Cross-Validation)

令牌级F1分数 (Token-Level F1 Score)

文档级F1分数 (Document-Level F1 Score)

时间不变性约束 (Time-Invariance Constraint)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

简历筛选

合规性检查

客户支持

远期愿景

跨领域应用

递归架构的安全防护

原文摘要

参考文献 (20)

相关论文

Neuron-Aware Data Selection In Instruction Tuning For Large Language Models

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

Interpretable Semantic Gradients in SSD: A PCA Sweep Approach and a Case Study on AI Discourse

Long-form RewardBench: Evaluating Reward Models for Long-form Generation

HMS-BERT: Hybrid Multi-Task Self-Training for Multilingual and Multi-Label Cyberbullying Detection

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问