FinHarness: An Inline Lifecycle Safety Harness for Finance LLM Agents

TL;DR

FinHarness通过内联生命周期安全护具，FinVault基准ASR降至15%，高级判官调用减少4.7倍

cs.CL 🔴 高级 2026-05-27 148 次浏览

Haoxuan Jia Yang Liu Bin Chong Yingguang Yang Yancheng Chen Jiayu Liang Qian Li Hanning Lu Kefu Xu Hao Zheng Chongyang Zhang Hao Peng Philip S. Yu

AI 阅读器 Arxiv 原文下载 PDF

金融安全大语言模型代理安全工具调用监控风险评估

核心发现

方法论

FinHarness提出了一种内联生命周期安全护具框架，针对金融领域的LLM代理，集成了三大核心组件：查询监控器(Query Monitor)融合单轮意图与跨轮漂移，构建会话级风险累积指标；工具监控器(Tool Monitor)基于权限等级、参数异常、业务事实及工具调用序列等多维规则评估每一步工具调用风险；级联模块(Cascade)利用滑动风险窗口动态路由调用轻量级(gpt-4o-mini)或高级别(gpt-4o)判官，实现高效且精准的风险判定。所有触发的风险因子作为前置证据动态注入代理输入，赋能代理自主拒绝、重规划或批准操作，确保安全与业务流畅并重。

关键结果

FinHarness在FinVault金融安全基准测试中，将攻击成功率(ASR)从38.3%显著降低至15.0%，同时保持良性批准率由41.1%仅略降至39.3%，展现了优异的安全-效用平衡。
相较于始终调用高级判官的基线，FinHarness通过风险窗口智能路由，减少了4.7倍的高级判官调用次数，极大降低了计算资源消耗和延迟。
消融实验显示，查询监控器提供零成本的早期风险预警，级联模块有效分流判官调用，整体机制提升了代理的自拒绝率15.7个百分点，主动拦截率提升6.7个百分点，强化了多步攻击轨迹的安全防护能力。

研究意义

本研究针对金融LLM代理在多步业务流程中面临的不可逆风险，提出了首个内联生命周期安全护具架构，突破了传统边界过滤器和事后判官的时效与覆盖限制。FinHarness不仅实现了对中途工具调用的实时风险监控，还通过风险证据反馈机制赋能代理自主决策，显著提升了金融业务自动化的安全保障水平。该方法为金融行业LLM代理的安全部署提供了可行且高效的解决方案，推动了智能金融系统的可信应用。

技术贡献

FinHarness的技术贡献在于其端到端内联架构设计，首次将查询意图风险与工具调用风险融合为会话级风险累积指标，并结合滑动窗口机制实现多层次判官动态路由，保障了计算成本的可控性。其风险因子动态注入机制创新性地实现了安全信号与代理策略的闭环耦合，提升了代理的自适应防御能力。此外，系统采用了多维规则头与语义相似度召回机制，增强了对复杂攻击轨迹的识别与干预能力，推动了金融领域LLM代理安全技术的发展。

新颖性

FinHarness创新地将安全防护嵌入代理执行生命周期中，区别于传统边界过滤和事后审计，能够实时监控并干预每一步工具调用。其多组件融合的风险累积模型和动态判官路由机制，首次实现了低成本高效的多步风险评估与决策反馈，显著提升了金融LLM代理的安全性和业务连续性。

局限性

FinHarness依赖预定义的规则头和固定参数，缺乏对攻击者适应性策略的动态应对能力，可能在面对未知攻击时存在防护盲点。
当前评测基于单次运行和特定基准，未覆盖模型版本、提示工程及工具模拟多样性，影响结果的泛化性和稳健性。
部分单步语法攻击对轻量级判官表现较好，FinHarness在此类场景下表现略有退步，提示部署时需结合快速拒绝路径以提升整体防御效率。

未来方向

未来研究可聚焦于动态规则学习与自适应风险评估，提升对新型攻击的识别能力；扩展多模型、多提示、多工具环境下的鲁棒性验证；结合快速拒绝机制优化系统响应速度；并探索跨领域安全护具设计，推动金融以外的LLM代理安全防护技术发展。

AI 总览摘要

随着大语言模型（LLM）在金融领域的广泛应用，金融LLM代理面临着复杂且高风险的多步业务流程安全挑战。传统的边界过滤器只能在对话边界进行粗粒度的允许或拒绝判断，无法实时监控中途的工具调用；而事后判官虽准确但往往为时已晚，且计算成本随轨迹长度线性增长，难以满足金融业务对安全与效率的双重需求。针对这一痛点，FinHarness提出了一种创新的内联生命周期安全护具框架，贯穿代理执行全过程，实时监控并动态干预每一步操作。

FinHarness由查询监控器、工具监控器和级联模块三大核心组件构成。查询监控器融合单轮意图与跨轮漂移，构建会话级风险累积指标，捕捉用户输入中的潜在风险信号；工具监控器基于权限、参数异常、业务事实和调用序列等多维规则，评估每个拟议工具调用的风险；级联模块通过滑动风险窗口智能路由调用轻量级或高级判官，保证判定的准确性同时控制计算资源消耗。所有触发的风险因子作为前置证据动态注入代理输入，赋能代理自主拒绝、重规划或批准操作，实现安全信号与代理策略的闭环耦合。

该方法在FinVault金融安全基准测试中表现卓越，将攻击成功率从38.3%降至15.0%，同时保持良性批准率仅轻微下降，展现了优异的安全-效用平衡。相比始终调用高级判官的基线，FinHarness通过风险窗口路由减少了4.7倍的高级判官调用次数，大幅降低了计算开销。消融实验进一步验证了查询监控器的零成本早期预警和级联模块的高效分流能力，显著提升了代理的自拒绝和主动拦截能力。

FinHarness的提出不仅突破了传统安全机制的时效和覆盖限制，还为金融LLM代理的安全部署提供了切实可行的解决方案。其端到端内联架构和动态风险反馈机制，为智能金融系统的可信应用奠定了坚实基础。未来工作将聚焦于提升系统对未知攻击的适应能力、扩展多模型环境下的鲁棒性验证及结合快速拒绝机制优化响应速度，推动金融及其他领域LLM代理安全技术的持续发展。

深度分析

研究背景

近年来，大语言模型（LLM）在金融领域的应用日益广泛，催生了能够自动执行复杂业务流程的金融LLM代理。这些代理通过解析用户意图，调用估值、质押、放款等工具，完成多步状态变更操作。然而，金融业务的不可逆性和高风险性使得代理的安全性成为关键问题。现有的安全机制主要包括边界过滤器和事后判官。边界过滤器在对话边界进行粗粒度的允许或拒绝判断，轻量且无状态，但对中途工具调用缺乏可见性，易被分步攻击绕过。事后判官虽准确，但仅在代理终止后进行审计，干预时机滞后且计算成本随轨迹长度线性增长，难以满足实时安全需求。近年来，诸如ReAct、Toolformer等工具使用型代理架构推动了语言模型与外部工具的协同，但也加剧了安全风险。金融领域特有的状态变更流程进一步放大了风险，亟需一种能够实时、内联监控代理执行全过程的安全护具。

核心问题

金融LLM代理面临的核心问题是如何在保证业务流程连续性的同时，阻断由提示注入引发的未授权操作，尤其是不可逆的中途工具调用。传统边界过滤器无法监控工具调用序列，容易被攻击者通过分步注入或隐藏在检索文档中的指令绕过。事后判官虽能准确审计，但干预时机晚，无法阻止已完成的风险操作，且计算成本高昂。如何设计一种内联安全机制，能够实时捕捉跨轮意图漂移和工具调用异常，动态评估多步风险，并将风险信号反馈给代理，实现自主拒绝或重规划，是当前的技术瓶颈。该问题不仅涉及多维规则设计，还需兼顾计算效率和业务效用，确保安全防护不影响正常业务批准率。

核心创新

FinHarness的核心创新包括：

�� 内联生命周期架构：首次将安全护具嵌入代理执行循环，实时监控每一步工具调用，突破边界过滤和事后审计的时效限制。

�� 多维风险累积模型：融合单轮意图风险与跨轮漂移，构建会话级风险累积指标，结合工具调用权限、参数异常、业务事实及调用序列规则，实现细粒度风险评估。

�� 动态判官级联路由：基于滑动风险窗口智能选择轻量级或高级判官调用，兼顾判定准确性与计算资源消耗，保障系统高效运行。

�� 风险因子动态注入：将触发的风险因子作为结构化证据反馈给代理输入，实现安全信号与代理策略的闭环耦合，赋能代理自主拒绝、重规划或批准。

这些创新有效提升了多步业务流程的安全防护能力，同时保持了较高的业务批准率和计算效率。

方法详解

FinHarness由三大核心组件构成：

�� 查询监控器(Query Monitor)：在每个用户轮次，基于预定义的确定性合规规则计算单轮意图风险(Q1-Q5)和跨轮漂移风险(D1-D5)。单轮意图风险涵盖动词权限等级、金额阈值、风险产品标记、胁迫紧急词汇和注入词典。跨轮漂移检测实体引用异常、伪测试模式、幻影批准码、动词等级跳跃和结束性强制语气。两者融合形成会话级风险累积指标C_query，采用重力衰减机制保持结构性漂移风险。

�� 工具监控器(Tool Monitor)：在每个拟议工具调用前，基于权限等级(H1)、危险参数匹配(H2)、参数类型/范围异常(H3)、业务事实内容(H4)及工具调用序列异常(H5)五大规则头评估风险。风险值c_tool与C_query融合取最大值，确保任一风险足以触发警示。

�� 级联模块(Cascade)：维护滑动风险窗口，基于窗口内风险总和阈值θ动态路由调用轻量级判官(gpt-4o-mini)或高级判官(gpt-4o)，保证每步最多一次判官调用。采用选择性回忆机制，基于语义相似度、实体重叠和信息提供者指标召回最多两步历史，辅助判官决策。

所有触发的规则头作为结构化证据动态注入代理输入，支持代理自主决策拒绝、重规划或批准，形成安全闭环。

实验设计

实验基于FinVault金融安全基准，涵盖107个良性和107个攻击案例，涉及个人信贷、房贷、供应链金融、保险和证券等31个场景及四大攻击家族。代理骨干为gpt-4o-mini，安全护具配置多种对比组，包括无护具基线(B0)、提示强化(B1)、不同判官配置(B2-B4)、外部参考护具(B5-B7)等。评估指标包括攻击成功率(ASR)、良性批准率(Approve)及判官调用次数。实验采用温度为0的贪心解码，ASB子集用于泛化测试。消融实验分析了查询监控器、级联路由及风险注入机制的贡献。

结果分析

FinHarness主配置在FinVault测试中将ASR从38.3%降至15.0%，良性批准率仅从41.1%降至39.3%，显著提升安全性同时保持业务效用。相比始终调用高级判官的基线，调用次数减少4.7倍，显著降低计算成本。消融显示查询监控器零成本预警提升了15.7个百分点的自拒绝率，级联模块有效分流判官调用，提升主动拦截率6.7个百分点。外部参考护具虽降低ASR至2.8%但良性批准率骤降至8.4%，显示FinHarness在安全与效用间取得更优平衡。不同攻击类型中，情感操控和文档伪造攻击防护效果尤为显著。

应用场景

FinHarness适用于金融领域多步业务自动化场景，如个人贷款审批、供应链融资、保险理赔及证券交易等，保障复杂工具调用流程的安全合规。其低延迟和高效判官路由机制支持实时在线部署，适合金融机构和第三方服务商集成至现有智能代理系统。通过风险因子反馈，代理具备自主安全决策能力，减少人工干预需求，提升业务连续性和客户体验。此外，该框架可扩展至其他高风险行业的LLM代理安全防护。

局限与展望

FinHarness依赖固定规则头和参数，缺乏对攻击者适应性策略的动态防御能力，可能对未知攻击存在盲点。评测基于单次运行和特定基准，未涵盖模型版本、提示工程及工具模拟多样性，影响泛化性。部分单步语法攻击对轻量级判官表现较好，FinHarness在此类场景下表现略有退步，提示需结合快速拒绝路径提升整体防御效率。未来需加强动态规则学习和多样化环境下的鲁棒性验证。

原文摘要

Finance LLM agents must simultaneously block prompt-induced unauthorized actions and approve legitimate multi-step business workflows. However, boundary filters often miss irreversible mid-trajectory tool calls, while post-hoc LLM judges perform auditing only after termination -- too late for intervention and at a computational cost that scales linearly with trace length. We present FinHarness, an inline safety harness that wraps a finance agent end-to-end with three components: a Query Monitor that fuses single-turn intent with cross-turn drift, a Tool Monitor that evaluates each prospective tool call, and a Cascade module that integrates per-step risk and adaptively routes verification between a lightweight and an advanced-tier LLM judge. Fired risk factors are re-injected into the agent input as ex-ante evidence, enabling the agent to refuse, re-plan, or approve on its own. On FinVault, routed FinHarness cuts ASR from 38.3% to 15.0% while largely preserving benign approval ($41.1\% \to 39.3\%$), and uses $4.7\times$ fewer advanced-judge calls than an always-advanced ablation.

cs.CL

参考文献 (10)

LlamaFirewall: An open source guardrail system for building secure AI agents

Sa-hana Chennabasappa, Cyrus Nikolaidis, D. Song 等

2025 73 引用 ⭐ 高影响力查看解读 →

GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning

Zhen Xiang, Linzhi Zheng, Yanjie Li 等

2024 74 引用 ⭐ 高影响力

SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment

Xixun Lin, Yang Liu, Yancheng Chen 等

2026 1 引用 ⭐ 高影响力查看解读 →

Defending Against Indirect Prompt Injection Attacks With Spotlighting

Keegan Hines, Gary Lopez, M. Hall 等

2024 176 引用查看解读 →

Toolformer: Language Models Can Teach Themselves to Use Tools

Timo Schick, Jane Dwivedi-Yu, Roberto Dessì 等

2023 3969 引用查看解读 →

Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection

Kai Greshake, Sahar Abdelnabi, Shailesh Mishra 等

2023 1289 引用查看解读 →

Agent-SafetyBench: Evaluating the Safety of LLM Agents

Zhexin Zhang, Shiyao Cui, Yida Lu 等

2024 179 引用查看解读 →

FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments

Zhi Yang, Runguo Li, Qiqi Qiang 等

2026 2 引用查看解读 →

IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents

Hengyu An, Jinghuai Zhang, Tianyu Du 等

2025 31 引用查看解读 →

StruQ: Defending Against Prompt Injection with Structured Queries

Sizhe Chen, Julien Piet, Chawin Sitawarin 等

2024 271 引用查看解读 →