LCGuard: Latent Communication Guard for Safe KV Sharing in Multi-Agent Systems

TL;DR

LCGuard通过对Transformer KV缓存进行对抗训练变换,有效降低多智能体系统中的敏感信息重构率,保持任务性能。

cs.AI 🔴 高级 2026-05-22 314 次浏览
Sadia Asif Mohammad Mohammadi Amiri Momin Abbas Prasanna Sattigeri Karthikeyan Natesan Ramamurthy
多智能体系统 隐私保护 潜在通信 Transformer KV缓存 对抗训练

核心发现

方法论

本文提出LCGuard框架,针对多智能体大语言模型系统中通过Transformer的键值(KV)缓存进行潜在通信时的敏感信息泄露问题。LCGuard将共享的KV缓存视为潜在工作记忆,设计可学习的表示变换函数g_{ij},在缓存传输前对其进行变换以抑制敏感信息的可重构性。通过构建对抗训练机制,攻击者训练解码器D_i以重构敏感输入s_i,而LCGuard则优化变换函数以最大化重构损失L_rec,同时保持任务性能L_task。该方法支持多种通信拓扑(顺序、层级、图结构)和多模型家族(Qwen3、Gemma、LLaMA),并通过调节权重β实现隐私与效用的权衡。

关键结果

  • 在Qwen3-4B模型的PrivacyLens基准顺序通信设置中,LCGuard将攻击成功率(ASR)从0.871降低至0.216,隐私保护提升约75%,同时保持帮助度(helpfulness)在0.710,任务准确率维持在0.720以上。
  • Gemma-9B模型在AgentLeak基准的层级通信拓扑中,LCGuard将ASR从0.885降至0.205,帮助度保持高达0.735,显著优于ADAPT等基线方法,后者虽降低ASR但牺牲大量任务性能。
  • 全系统优化版本的LCGuard优于逐代理优化,能有效抑制跨多跳通信的组合泄露,提升隐私保护效果,且在不同模型和通信拓扑下均表现稳定。

研究意义

本研究首次系统性揭示了Transformer KV缓存作为多智能体系统潜在通信通道中隐私泄露的风险,突破了传统基于文本的通信安全机制的局限。LCGuard提供了一种基于表示层的对抗训练框架,能够在保证多智能体协同任务性能的同时,有效抑制敏感信息的重构,填补了KV缓存安全领域的空白。该方法对推动多智能体系统在敏感环境中的应用具有重要意义,促进了隐私保护与高效协同的平衡。

技术贡献

技术上,LCGuard创新性地将敏感信息泄露定义为对共享KV缓存的重构能力,提出了基于对抗训练的最小化重构信息的表示变换机制。该框架支持多种通信拓扑结构,兼容不同Transformer模型规模,且通过联合优化通信函数与攻击解码器,实现了隐私与任务效用的动态权衡。此外,系统级优化策略有效捕获了多跳信息组合泄露,提升了防护的全面性和鲁棒性。

新颖性

LCGuard是首个针对多智能体系统中Transformer KV缓存潜在通信的隐私泄露问题,提出基于重构攻击的对抗训练防护框架。与传统文本通信安全方法不同,它直接作用于高维潜在表示层,创新性地将隐私保护纳入表示学习过程,填补了KV缓存共享安全的理论与实践空白。

局限性

  • LCGuard依赖于攻击者模型的能力,若攻击者采用更复杂或未知的解码策略,可能导致防护效果下降。
  • 该方法在极端隐私保护需求下可能牺牲部分任务性能,隐私与效用的权衡仍需根据具体应用场景调整。
  • 当前实验主要基于公开模型和标准基准,实际部署环境中多样化的通信协议和攻击面可能带来额外挑战。

未来方向

未来工作可探索更强大的攻击模型以评估防护鲁棒性,结合差分隐私等理论保障提升安全性。此外,扩展LCGuard至更复杂的多智能体交互协议和跨模态通信,提升其实用性和通用性。进一步研究动态调整隐私-效用权重的自适应机制,将增强系统在实际应用中的灵活性和安全性。

AI 总览摘要

随着大型语言模型(LLM)在多智能体系统中的广泛应用,智能体间通过中间通信协调复杂任务成为趋势。传统方法多依赖自然语言进行通信,虽然直观易懂,但存在效率低下和信息丢失的问题。近期研究发现,利用Transformer的键值(KV)缓存作为潜在通信通道,能显著提升通信效率和保留更丰富的任务相关信息。然而,KV缓存不仅编码上下文输入和推理状态,还隐含了智能体特有的敏感信息,形成了一个不透明的高维信息通道,可能导致隐私泄露风险,且这种泄露不依赖于显式文本输出,传统安全措施难以防范。

针对这一挑战,本文提出了LCGuard框架,将共享的KV缓存视为潜在工作记忆,通过学习表示级变换函数,在缓存传输前对其进行变换,抑制敏感信息的可重构性。核心思想是将敏感信息泄露形式化为对共享缓存的重构能力:如果攻击者能从缓存中恢复智能体特定的敏感输入,则该缓存被视为不安全。基于此,LCGuard采用对抗训练机制,攻击者训练解码器以重构敏感信息,通信函数则优化以最大化重构损失,同时保持任务性能。该方法支持多种通信拓扑结构和多模型家族,具备良好的适应性。

技术上,LCGuard通过联合优化通信变换和攻击解码器,实现在保证多智能体协同任务效用的同时,有效降低敏感信息泄露风险。系统级优化策略进一步抑制了多跳通信中信息的组合泄露,提升了整体隐私保护效果。实验部分,作者在Qwen3、Gemma和LLaMA等模型上,使用PrivacyLens、AgentLeak和MAGPIE等多智能体隐私基准,系统评估了LCGuard的性能。结果显示,LCGuard在保持任务准确率和帮助度的同时,将攻击成功率(ASR)降低了约65%-75%,显著优于无保护的原始KV共享和其他隐私保护基线方法。

此外,研究揭示了KV缓存潜在通信的隐私风险,指出传统基于文本的隐私保护方法难以覆盖潜在表示层的泄露。LCGuard为多智能体系统中潜在通信的安全提供了理论和实践框架,促进了隐私保护与高效协同的平衡。该研究对推动多智能体系统在敏感领域的应用具有重要意义。

尽管取得显著进展,LCGuard仍存在依赖攻击模型能力、隐私与效用权衡等局限。未来工作将探索更强攻击模型、结合差分隐私理论、扩展通信协议和跨模态场景,以及动态调整隐私权重的机制,以提升系统的安全性和实用性。总体而言,LCGuard为多智能体系统中潜在通信的隐私保护开辟了新路径,具有广泛的学术和应用前景。

深度分析

研究背景

近年来,基于大型语言模型(LLM)的多智能体系统成为人工智能领域的研究热点。多智能体通过协调、委托和信息交换,共同完成复杂任务。传统多智能体通信主要依赖自然语言文本,智能体将内部状态序列化为文本,其他智能体再解析文本继续推理。这种方法虽然灵活且易于解释,但存在效率低下、信息丢失和重复计算的问题。近期研究开始探索超越文本的潜在通信方式,尤其是利用Transformer模型中的键值(KV)缓存作为通信载体。KV缓存直接传递高维语义表示,避免了重复解码和编码,提升了多阶段推理的效率和信息保留能力。


然而,KV缓存作为高维、语义密集的表示,编码了上下文输入、中间推理状态及智能体特有信息,形成了一个不透明的信息通道。先前研究表明,模型内部表示可能保留大量输入信息,即使这些信息未被显式解码。KV缓存的共享使敏感信息可能在智能体间隐式传播,攻击者通过训练解码器有能力从中恢复敏感输入,构成新的隐私泄露风险。这种风险不同于传统基于文本的泄露,难以通过现有安全机制检测和防范。


因此,如何在保证多智能体系统高效协同的同时,控制KV缓存潜在通信中的敏感信息泄露,成为亟待解决的核心问题。现有多智能体安全机制多聚焦于输出层或工具调用,缺乏对潜在表示层的约束;KV缓存安全研究多关注隔离和系统控制,缺少针对共享缓存内容的隐私保护框架。本文基于此背景,提出了LCGuard,旨在填补该领域空白。

核心问题

多智能体系统中,智能体通过共享Transformer KV缓存进行潜在通信,提升了协同效率和信息丰富度,但也带来了敏感信息隐私泄露的新风险。具体而言,KV缓存不仅包含任务相关信息,还隐式编码了智能体特有的敏感输入,如用户上下文、检索文档和中间推理结果。这些信息通过高维表示空间传递,难以被外部观察者直接检测或控制。


攻击者若能访问共享缓存(例如通过被攻陷的智能体、日志系统或辅助模型),可训练解码器重构敏感输入,导致隐私泄露。该泄露发生于表示层,非显式文本输出,传统基于文本的隐私保护机制无效。此外,敏感信息可能在多跳通信中累积,形成组合泄露,增加防护难度。


因此,核心问题是设计一种通信机制,既能保持KV缓存潜在通信的高效和任务效用,又能最大限度地降低敏感信息的可重构性和泄露风险。这要求在表示层对共享缓存进行变换和约束,实现隐私与效用的平衡。

核心创新

本研究的核心创新包括:


  • �� 表示级泄露定义:首次将敏感信息泄露形式化为对共享KV缓存的重构能力,提出以重构损失衡量隐私风险的新范式。

  • �� 对抗训练框架:设计通信函数与攻击解码器的对抗优化机制,通信函数学习变换共享缓存以抑制敏感信息重构,同时保持任务性能。

  • �� 系统级优化策略:不仅针对单条通信链路,还联合优化全系统通信函数,抑制多跳通信中组合泄露,提升整体防护效果。

  • �� 多模型多拓扑适配:方法兼容多种Transformer模型(Qwen3、Gemma、LLaMA)和通信拓扑(顺序、层级、图结构),具备广泛适用性。

这些创新突破了传统基于文本的隐私保护局限,首次针对潜在表示层通信泄露提出系统性解决方案,推动了多智能体系统隐私保护研究。

方法详解

  • �� 系统建模:定义多智能体集合{a_i},每个智能体基于Transformer模型θ_i,接收任务输入x_i和敏感输入s_i,生成内部KV缓存K_i和V_i。

  • �� 通信机制:智能体间通过学习的变换函数g_{ij}(K_i,V_i)传递潜在表示m_{ij},无显式文本交换。

  • �� 泄露定义:若攻击者解码器D_i能从观察到的通信集合M_obs重构敏感输入s_i,则视为泄露。重构损失L_rec衡量泄露程度。

  • �� 对抗训练:构建min_ϕ max_ψ β Σ_i L_rec(M_obs) + L_task(M)的优化目标,ϕ为通信函数参数,ψ为攻击解码器参数,β控制隐私与效用权衡。

  • �� 训练流程:交替优化攻击解码器以降低重构损失,优化通信函数以增加重构难度,同时保持任务性能。

  • �� 多拓扑适应:支持顺序、层级和图结构通信,M_obs可为单条链路或全系统通信集合,捕获局部及组合泄露。

  • �� 实验设置:在Qwen3、Gemma、LLaMA模型上,使用PrivacyLens、AgentLeak、MAGPIE等基准,评估隐私保护和任务性能。

实验设计

实验涵盖三大模型家族(Qwen3-4B/8B/14B、Gemma-2-9B、LLaMA-3B/8B),在PrivacyLens、AgentLeak和MAGPIE多智能体隐私基准上进行评测。通信拓扑包括顺序、层级及图结构,模拟多种实际交互场景。基线方法包括原始KV共享(Vanilla KV)、基于策略的PrivAct和噪声注入的ADAPT。


评估指标涵盖任务准确率、帮助度(helpfulness)、隐私指标如攻击成功率(ASR)和重构损失。通过调节隐私权重β,分析隐私-效用权衡。还进行了消融实验,探讨攻击模型强度、通信拓扑和系统级优化的影响。


此外,附录中提供了推理效率对比,展示LCGuard在保持高效通信的同时实现隐私保护。整体实验设计全面,覆盖多模型、多场景、多指标,验证方法的鲁棒性和实用性。

结果分析

实验结果表明,LCGuard显著降低了敏感信息的重构风险,同时保持了竞争性的任务性能。在Qwen3-4B模型的PrivacyLens顺序通信中,LCGuard将ASR从0.871降至0.216,帮助度维持在0.710,任务准确率保持0.720以上。Gemma-9B模型在AgentLeak层级通信中,ASR从0.885降至0.205,帮助度高达0.735,远优于ADAPT等基线。全系统优化版本优于逐代理优化,能有效抑制多跳组合泄露,提升隐私保护效果。不同通信拓扑和模型规模下,LCGuard均表现稳定,展现出良好的泛化能力。相比之下,原始KV共享虽任务性能最高,但隐私风险极大;ADAPT虽降低泄露,但任务性能大幅下降;PrivAct提升隐私指标但对潜在通信泄露无效。

应用场景

LCGuard适用于多智能体系统中需要高效协同且存在隐私敏感信息的场景,如智能助理协作、跨机构数据分析、医疗诊断协同和安全监控等。通过潜在通信保护,系统可在不牺牲性能的前提下,防止敏感信息泄露,满足合规和安全需求。此外,LCGuard框架可扩展至其他基于Transformer的潜在表示共享场景,促进隐私保护技术在多模态和跨域协同中的应用。

局限与展望

LCGuard依赖于攻击模型的能力,若攻击者采用更复杂或未知的解码策略,防护效果可能受限。隐私与效用权衡仍需根据具体应用调整,极端隐私需求可能导致任务性能下降。当前实验基于公开模型和标准基准,实际部署中多样化通信协议和攻击面可能带来额外挑战,需进一步验证和优化。

原文摘要

Large language model (LLM)-based multi-agent systems increasingly rely on intermediate communication to coordinate complex tasks. While most existing systems communicate through natural language, recent work shows that latent communication, particularly through transformer key-value (KV) caches, can improve efficiency and preserve richer task-relevant information. However, KV caches also encode contextual inputs, intermediate reasoning states, and agent-specific information, creating an opaque channel through which sensitive content may propagate across agents without explicit textual disclosure. To address this, we introduce \textbf{LCGuard} (Latent Communication Guard), a framework for safe KV-based latent communication in multi-agent LLM systems. LCGuard treats shared KV caches as latent working memory and learns representation-level transformations before cache artifacts are transmitted across agents. We formalize representation-level sensitive information leakage operationally through reconstruction: a shared cache artifact is unsafe if an adversarial decoder can recover agent-specific sensitive inputs from it. This leads to an adversarial training formulation in which the adversary learns to reconstruct sensitive inputs, while LCGuard learns transformations that preserve task-relevant semantics and reduce reconstructable information. Empirical evaluations across multiple model families and multi-agent benchmarks show that LCGuard consistently reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance compared to standard KV-sharing baselines.

cs.AI cs.ET cs.LG cs.MA