技术博客arXiv cs.CL·8 天前

向量并非中立：从导出LLM表示中推断敏感信息

原标题：Vectors Are Not Neutral: Sensitive-Information Inference from Exported LLM Representations in Summarization

速览

大型语言模型在生成摘要时导出的向量表示可能泄露敏感信息。研究以临床出院摘要为例，发现单一向量保护不足以防止信息恢复。提出的SurfaceLoRA方法能有效降低目标向量的敏感信息可恢复性，同时保持摘要质量。

AI 深度解读

Vectors Are Not Neutral: 从导出 LLM 表示中推断敏感信息

背景

大型语言模型（LLM）在生成摘要等任务中，往往需要将输入数据的紧凑向量表示（vector representations）传递给下游组件，用于检索、监控、审计或分析工作流。尽管原始源文档可能受到严格的访问控制保护，但这些派生的向量表示（derived vectors）通常遵循不同的访问权限策略。

这就产生了一个显著的安全隐患：即使原始数据不可见，攻击者或恶意内部人员仍可能通过访问这些向量表示来推断出敏感信息，从而造成残留的信息泄露风险。为了深入探究这一问题，研究人员以临床出院摘要生成为高风险案例，将电子健康记录（EHR）中记录的种族信息作为受控的敏感标签进行审计，旨在揭示向量表示中潜藏的数据隐私风险。

核心内容

本研究聚焦于 LLM 在生成摘要过程中，其内部表示如何成为敏感信息泄露的载体。研究团队选取了临床出院摘要生成作为具体场景，因为该场景涉及高度敏感的个人健康信息。作为审计指标，研究人员使用了 EHR 中记录的“种族”这一受控敏感标签，通过探测模型是否能从导出的向量中恢复出患者的种族信息，来评估隐私泄露的风险。

研究主要审计了系统可能保留或暴露给下游组件的两种关键工件（artifacts）：

最终提示词 token 的隐藏状态（final prompt-token hidden state）：即模型处理完所有输入后，最后一个 token 的内部向量表示。
均值池化的提示词表示（mean-pooled prompt representation）：通过对所有输入 token 的隐藏状态进行平均池化操作得到的向量表示。

实验结果揭示了一个关键现象：降低从某一个导出工件中恢复敏感标签的能力，并不必然意味着从另一个工件中恢复该标签的能力也会降低。这意味着，仅仅保护其中一种向量形式并不能完全消除隐私风险，不同向量形式可能以不同的方式泄露信息。

为了缓解这一风险，研究提出了一种名为 SurfaceLoRA 的缓解方案。这是一种针对导出向量的参数高效微调（PEFT）方法。SurfaceLoRA 的核心机制是在指定的导出向量上附加一个梯度反转判别器（gradient-reversal discriminator）。通过这种对抗性训练，模型被强制学习在保留摘要生成能力的同时，消除导出向量中与敏感标签相关的特征。

在平衡的五路探测协议（five-way probing protocol）下，SurfaceLoRA 显著降低了从目标工件（即最终 token 隐藏状态）中恢复 EHR 记录种族信息的能力，使其接近随机猜测水平，同时并未损害摘要生成的实用性。然而，研究也发现，从非目标工件（即均值池化后的向量）中，敏感信息的可恢复性仍然显著高于随机水平。

关键要点

向量并非中立：LLM 导出的向量表示并非纯粹的语义抽象，它们可能携带并泄露输入数据中的敏感属性（如种族、性别等），即使原始数据受到访问限制。
风险的非对称性：针对某一类导出向量（如最终 token 状态）的隐私保护，不能自动推广到其他类型的向量表示（如均值池化向量）。不同向量形式可能独立地泄露敏感信息。
SurfaceLoRA 的有效性：提出的 SurfaceLoRA 方法通过梯度反转判别器，成功针对特定导出向量进行了隐私保护微调。它在保持摘要任务性能的同时，将目标向量中的敏感信息可恢复性降至接近随机水平。
剩余风险的存在：尽管 SurfaceLoRA 保护了目标向量，但非目标向量（如均值池化向量）中仍存在较高的敏感信息泄露风险。这表明单一维度的防护不足以解决所有问题。
审计需具体化：隐私审计和缓解措施必须针对系统实际保留或暴露给下游组件的具体向量工件进行，不能假设一种保护手段能覆盖所有向量形式。

意义与影响

这项研究对 LLM 在高风险领域（如医疗、金融）的应用提出了重要的安全警示。它打破了“只要隐藏原始数据，中间表示就是安全的”这一常见假设，揭示了向量嵌入层作为潜在攻击面的风险。

对于工业界而言，这意味着在构建基于 LLM 的数据处理管道时，必须对导出的向量表示进行细粒度的隐私审计。不能仅依赖通用的去标识化技术，而需要针对具体的向量导出格式（如 final hidden state 或 pooled representation）设计专门的防护机制。

此外，SurfaceLoRA 作为一种参数高效微调方法，为在不重新训练整个模型的情况下实现隐私保护提供了可行的技术路径。然而，研究也指出当前方法的局限性——即无法同时保护所有类型的向量导出。未来的工作可能需要探索更全面的向量隐私保护框架，或者在系统架构层面重新考虑向量导出策略，以彻底消除这种残留的信息披露风险。

查看原文 →arxiv.org