LCGuard: Latent Communication Guard for Safe KV Sharing in Multi-Agent Systems

TL;DR

LCGuard通过对Transformer KV缓存进行对抗训练变换，有效降低多智能体系统中的敏感信息重构率，保持任务性能。

cs.AI 🔴 高级 2026-05-22 314 次浏览

Sadia Asif Mohammad Mohammadi Amiri Momin Abbas Prasanna Sattigeri Karthikeyan Natesan Ramamurthy

多智能体系统隐私保护潜在通信 Transformer KV缓存对抗训练

核心发现

方法论

本文提出LCGuard框架，针对多智能体大语言模型系统中通过Transformer的键值（KV）缓存进行潜在通信时的敏感信息泄露问题。LCGuard将共享的KV缓存视为潜在工作记忆，设计可学习的表示变换函数g_{ij}，在缓存传输前对其进行变换以抑制敏感信息的可重构性。通过构建对抗训练机制，攻击者训练解码器D_i以重构敏感输入s_i，而LCGuard则优化变换函数以最大化重构损失L_rec，同时保持任务性能L_task。该方法支持多种通信拓扑（顺序、层级、图结构）和多模型家族（Qwen3、Gemma、LLaMA），并通过调节权重β实现隐私与效用的权衡。

关键结果

在Qwen3-4B模型的PrivacyLens基准顺序通信设置中，LCGuard将攻击成功率（ASR）从0.871降低至0.216，隐私保护提升约75%，同时保持帮助度（helpfulness）在0.710，任务准确率维持在0.720以上。
Gemma-9B模型在AgentLeak基准的层级通信拓扑中，LCGuard将ASR从0.885降至0.205，帮助度保持高达0.735，显著优于ADAPT等基线方法，后者虽降低ASR但牺牲大量任务性能。
全系统优化版本的LCGuard优于逐代理优化，能有效抑制跨多跳通信的组合泄露，提升隐私保护效果，且在不同模型和通信拓扑下均表现稳定。

研究意义

本研究首次系统性揭示了Transformer KV缓存作为多智能体系统潜在通信通道中隐私泄露的风险，突破了传统基于文本的通信安全机制的局限。LCGuard提供了一种基于表示层的对抗训练框架，能够在保证多智能体协同任务性能的同时，有效抑制敏感信息的重构，填补了KV缓存安全领域的空白。该方法对推动多智能体系统在敏感环境中的应用具有重要意义，促进了隐私保护与高效协同的平衡。

技术贡献

技术上，LCGuard创新性地将敏感信息泄露定义为对共享KV缓存的重构能力，提出了基于对抗训练的最小化重构信息的表示变换机制。该框架支持多种通信拓扑结构，兼容不同Transformer模型规模，且通过联合优化通信函数与攻击解码器，实现了隐私与任务效用的动态权衡。此外，系统级优化策略有效捕获了多跳信息组合泄露，提升了防护的全面性和鲁棒性。

新颖性

LCGuard是首个针对多智能体系统中Transformer KV缓存潜在通信的隐私泄露问题，提出基于重构攻击的对抗训练防护框架。与传统文本通信安全方法不同，它直接作用于高维潜在表示层，创新性地将隐私保护纳入表示学习过程，填补了KV缓存共享安全的理论与实践空白。

局限性

LCGuard依赖于攻击者模型的能力，若攻击者采用更复杂或未知的解码策略，可能导致防护效果下降。
该方法在极端隐私保护需求下可能牺牲部分任务性能，隐私与效用的权衡仍需根据具体应用场景调整。
当前实验主要基于公开模型和标准基准，实际部署环境中多样化的通信协议和攻击面可能带来额外挑战。

未来方向

未来工作可探索更强大的攻击模型以评估防护鲁棒性，结合差分隐私等理论保障提升安全性。此外，扩展LCGuard至更复杂的多智能体交互协议和跨模态通信，提升其实用性和通用性。进一步研究动态调整隐私-效用权重的自适应机制，将增强系统在实际应用中的灵活性和安全性。

AI 总览摘要

随着大型语言模型（LLM）在多智能体系统中的广泛应用，智能体间通过中间通信协调复杂任务成为趋势。传统方法多依赖自然语言进行通信，虽然直观易懂，但存在效率低下和信息丢失的问题。近期研究发现，利用Transformer的键值（KV）缓存作为潜在通信通道，能显著提升通信效率和保留更丰富的任务相关信息。然而，KV缓存不仅编码上下文输入和推理状态，还隐含了智能体特有的敏感信息，形成了一个不透明的高维信息通道，可能导致隐私泄露风险，且这种泄露不依赖于显式文本输出，传统安全措施难以防范。

针对这一挑战，本文提出了LCGuard框架，将共享的KV缓存视为潜在工作记忆，通过学习表示级变换函数，在缓存传输前对其进行变换，抑制敏感信息的可重构性。核心思想是将敏感信息泄露形式化为对共享缓存的重构能力：如果攻击者能从缓存中恢复智能体特定的敏感输入，则该缓存被视为不安全。基于此，LCGuard采用对抗训练机制，攻击者训练解码器以重构敏感信息，通信函数则优化以最大化重构损失，同时保持任务性能。该方法支持多种通信拓扑结构和多模型家族，具备良好的适应性。

技术上，LCGuard通过联合优化通信变换和攻击解码器，实现在保证多智能体协同任务效用的同时，有效降低敏感信息泄露风险。系统级优化策略进一步抑制了多跳通信中信息的组合泄露，提升了整体隐私保护效果。实验部分，作者在Qwen3、Gemma和LLaMA等模型上，使用PrivacyLens、AgentLeak和MAGPIE等多智能体隐私基准，系统评估了LCGuard的性能。结果显示，LCGuard在保持任务准确率和帮助度的同时，将攻击成功率（ASR）降低了约65%-75%，显著优于无保护的原始KV共享和其他隐私保护基线方法。

此外，研究揭示了KV缓存潜在通信的隐私风险，指出传统基于文本的隐私保护方法难以覆盖潜在表示层的泄露。LCGuard为多智能体系统中潜在通信的安全提供了理论和实践框架，促进了隐私保护与高效协同的平衡。该研究对推动多智能体系统在敏感领域的应用具有重要意义。

尽管取得显著进展，LCGuard仍存在依赖攻击模型能力、隐私与效用权衡等局限。未来工作将探索更强攻击模型、结合差分隐私理论、扩展通信协议和跨模态场景，以及动态调整隐私权重的机制，以提升系统的安全性和实用性。总体而言，LCGuard为多智能体系统中潜在通信的隐私保护开辟了新路径，具有广泛的学术和应用前景。

深度分析

研究背景

近年来，基于大型语言模型（LLM）的多智能体系统成为人工智能领域的研究热点。多智能体通过协调、委托和信息交换，共同完成复杂任务。传统多智能体通信主要依赖自然语言文本，智能体将内部状态序列化为文本，其他智能体再解析文本继续推理。这种方法虽然灵活且易于解释，但存在效率低下、信息丢失和重复计算的问题。近期研究开始探索超越文本的潜在通信方式，尤其是利用Transformer模型中的键值（KV）缓存作为通信载体。KV缓存直接传递高维语义表示，避免了重复解码和编码，提升了多阶段推理的效率和信息保留能力。

然而，KV缓存作为高维、语义密集的表示，编码了上下文输入、中间推理状态及智能体特有信息，形成了一个不透明的信息通道。先前研究表明，模型内部表示可能保留大量输入信息，即使这些信息未被显式解码。KV缓存的共享使敏感信息可能在智能体间隐式传播，攻击者通过训练解码器有能力从中恢复敏感输入，构成新的隐私泄露风险。这种风险不同于传统基于文本的泄露，难以通过现有安全机制检测和防范。

因此，如何在保证多智能体系统高效协同的同时，控制KV缓存潜在通信中的敏感信息泄露，成为亟待解决的核心问题。现有多智能体安全机制多聚焦于输出层或工具调用，缺乏对潜在表示层的约束；KV缓存安全研究多关注隔离和系统控制，缺少针对共享缓存内容的隐私保护框架。本文基于此背景，提出了LCGuard，旨在填补该领域空白。

核心问题

多智能体系统中，智能体通过共享Transformer KV缓存进行潜在通信，提升了协同效率和信息丰富度，但也带来了敏感信息隐私泄露的新风险。具体而言，KV缓存不仅包含任务相关信息，还隐式编码了智能体特有的敏感输入，如用户上下文、检索文档和中间推理结果。这些信息通过高维表示空间传递，难以被外部观察者直接检测或控制。

攻击者若能访问共享缓存（例如通过被攻陷的智能体、日志系统或辅助模型），可训练解码器重构敏感输入，导致隐私泄露。该泄露发生于表示层，非显式文本输出，传统基于文本的隐私保护机制无效。此外，敏感信息可能在多跳通信中累积，形成组合泄露，增加防护难度。

因此，核心问题是设计一种通信机制，既能保持KV缓存潜在通信的高效和任务效用，又能最大限度地降低敏感信息的可重构性和泄露风险。这要求在表示层对共享缓存进行变换和约束，实现隐私与效用的平衡。

核心创新

本研究的核心创新包括：

�� 表示级泄露定义：首次将敏感信息泄露形式化为对共享KV缓存的重构能力，提出以重构损失衡量隐私风险的新范式。

�� 对抗训练框架：设计通信函数与攻击解码器的对抗优化机制，通信函数学习变换共享缓存以抑制敏感信息重构，同时保持任务性能。

�� 系统级优化策略：不仅针对单条通信链路，还联合优化全系统通信函数，抑制多跳通信中组合泄露，提升整体防护效果。

�� 多模型多拓扑适配：方法兼容多种Transformer模型（Qwen3、Gemma、LLaMA）和通信拓扑（顺序、层级、图结构），具备广泛适用性。

这些创新突破了传统基于文本的隐私保护局限，首次针对潜在表示层通信泄露提出系统性解决方案，推动了多智能体系统隐私保护研究。

方法详解

�� 系统建模：定义多智能体集合{a_i}，每个智能体基于Transformer模型θ_i，接收任务输入x_i和敏感输入s_i，生成内部KV缓存K_i和V_i。

�� 通信机制：智能体间通过学习的变换函数g_{ij}(K_i,V_i)传递潜在表示m_{ij}，无显式文本交换。

�� 泄露定义：若攻击者解码器D_i能从观察到的通信集合M_obs重构敏感输入s_i，则视为泄露。重构损失L_rec衡量泄露程度。

�� 对抗训练：构建min_ϕ max_ψ β Σ_i L_rec(M_obs) + L_task(M)的优化目标，ϕ为通信函数参数，ψ为攻击解码器参数，β控制隐私与效用权衡。

�� 训练流程：交替优化攻击解码器以降低重构损失，优化通信函数以增加重构难度，同时保持任务性能。

�� 多拓扑适应：支持顺序、层级和图结构通信，M_obs可为单条链路或全系统通信集合，捕获局部及组合泄露。

�� 实验设置：在Qwen3、Gemma、LLaMA模型上，使用PrivacyLens、AgentLeak、MAGPIE等基准，评估隐私保护和任务性能。

实验设计

实验涵盖三大模型家族（Qwen3-4B/8B/14B、Gemma-2-9B、LLaMA-3B/8B），在PrivacyLens、AgentLeak和MAGPIE多智能体隐私基准上进行评测。通信拓扑包括顺序、层级及图结构，模拟多种实际交互场景。基线方法包括原始KV共享（Vanilla KV）、基于策略的PrivAct和噪声注入的ADAPT。

评估指标涵盖任务准确率、帮助度（helpfulness）、隐私指标如攻击成功率（ASR）和重构损失。通过调节隐私权重β，分析隐私-效用权衡。还进行了消融实验，探讨攻击模型强度、通信拓扑和系统级优化的影响。

此外，附录中提供了推理效率对比，展示LCGuard在保持高效通信的同时实现隐私保护。整体实验设计全面，覆盖多模型、多场景、多指标，验证方法的鲁棒性和实用性。

结果分析

实验结果表明，LCGuard显著降低了敏感信息的重构风险，同时保持了竞争性的任务性能。在Qwen3-4B模型的PrivacyLens顺序通信中，LCGuard将ASR从0.871降至0.216，帮助度维持在0.710，任务准确率保持0.720以上。Gemma-9B模型在AgentLeak层级通信中，ASR从0.885降至0.205，帮助度高达0.735，远优于ADAPT等基线。全系统优化版本优于逐代理优化，能有效抑制多跳组合泄露，提升隐私保护效果。不同通信拓扑和模型规模下，LCGuard均表现稳定，展现出良好的泛化能力。相比之下，原始KV共享虽任务性能最高，但隐私风险极大；ADAPT虽降低泄露，但任务性能大幅下降；PrivAct提升隐私指标但对潜在通信泄露无效。

应用场景

LCGuard适用于多智能体系统中需要高效协同且存在隐私敏感信息的场景，如智能助理协作、跨机构数据分析、医疗诊断协同和安全监控等。通过潜在通信保护，系统可在不牺牲性能的前提下，防止敏感信息泄露，满足合规和安全需求。此外，LCGuard框架可扩展至其他基于Transformer的潜在表示共享场景，促进隐私保护技术在多模态和跨域协同中的应用。

局限与展望

LCGuard依赖于攻击模型的能力，若攻击者采用更复杂或未知的解码策略，防护效果可能受限。隐私与效用权衡仍需根据具体应用调整，极端隐私需求可能导致任务性能下降。当前实验基于公开模型和标准基准，实际部署中多样化通信协议和攻击面可能带来额外挑战，需进一步验证和优化。

原文摘要

Large language model (LLM)-based multi-agent systems increasingly rely on intermediate communication to coordinate complex tasks. While most existing systems communicate through natural language, recent work shows that latent communication, particularly through transformer key-value (KV) caches, can improve efficiency and preserve richer task-relevant information. However, KV caches also encode contextual inputs, intermediate reasoning states, and agent-specific information, creating an opaque channel through which sensitive content may propagate across agents without explicit textual disclosure. To address this, we introduce \textbf{LCGuard} (Latent Communication Guard), a framework for safe KV-based latent communication in multi-agent LLM systems. LCGuard treats shared KV caches as latent working memory and learns representation-level transformations before cache artifacts are transmitted across agents. We formalize representation-level sensitive information leakage operationally through reconstruction: a shared cache artifact is unsafe if an adversarial decoder can recover agent-specific sensitive inputs from it. This leads to an adversarial training formulation in which the adversary learns to reconstruct sensitive inputs, while LCGuard learns transformations that preserve task-relevant semantics and reduce reconstructable information. Empirical evaluations across multiple model families and multi-agent benchmarks show that LCGuard consistently reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance compared to standard KV-sharing baselines.

cs.AI cs.ET cs.LG cs.MA