技术博客arXiv cs.CL·2 小时前

基于解耦表示的分布式智能体隐私保护文本清洗框架

原标题：Privacy-Preserving Text Sanitization for Distributed Agents Collaboration via Disentangled Representations

速览

针对分布式智能体跨组织协作中的隐私泄露风险，提出DiSan（解耦清洗）框架。该框架利用双流编码器将文本分离为保留语义的角色子空间和保留本地风格子空间，并通过联邦原型对齐与对抗正则化实现联合训练。实验表明，相比传统掩码方法，DiSan在降低风格属性识别的同时，显著减少了PII暴露并保持了高答案忠实度。

AI 深度解读

基于解耦表示的分布式智能体协作隐私保护文本清洗

背景

在分布式人工智能（AI）系统中，多个智能体（Agents）往往需要跨越组织边界进行协作。这种协作通常涉及文本数据的交换，例如在分布式多智能体检索增强生成（RAG）场景中。然而，这种跨组织的数据交换带来了严峻的隐私泄露风险。

传统的隐私保护方法通常专注于识别和掩盖显式的个人身份信息（PII），如姓名、地址或电话号码。然而，研究表明，即使去除了显式标识符，文本中仍残留着大量的“分布特征签名”（distributional signatures）。这些签名包括格式惯例、词汇选择偏好以及句法模式等。攻击者可以利用这些细微的语言风格特征进行文体学归因（stylometric attribution），从而推断出文本的来源或所属组织，导致间接的隐私泄露。因此，如何在保留任务语义的同时，彻底剥离文本中的来源风格特征，成为分布式智能体协作中的一个关键挑战。

核心内容

针对上述问题，研究人员提出了一种名为 DiSan（Disentangled Sanitization，解耦清洗）的隐私保护框架。DiSan 不仅是独立的隐私保护工具，也是 Intern-Shannon 多智能体协作系统中的一个内置组件。该框架旨在解决跨组织文本交换中的隐私泄露问题，其核心机制如下：

1. 双流编码器与特征解耦

DiSan 采用双流编码器（two-stream encoder）架构，将输入文本分解为两个正交的子空间：

源不变角色子空间（Source-invariant role subspace）：该子空间保留任务的语义信息，确保智能体在处理任务时能够准确理解内容，而不受来源风格的影响。
源识别风格子空间（Source-identifying style subspace）：该子空间捕获与文本来源相关的风格特征（如特定组织的行文习惯）。在清洗过程中，这一部分特征被保留在本地，不随数据共享，从而切断通过风格推断来源的可能性。

2. 联邦原型对齐与对抗正则化

为了实现隐私保护下的联合训练，DiSan 引入了联邦学习机制，无需将原始文本集中到中心服务器。

联邦原型对齐（Federated proto-type alignment）：通过对齐不同数据源的特征原型，确保解耦后的语义表示在不同分布下保持一致。
对抗正则化（Adversarial regularization）：通过引入对抗性训练，迫使模型在保留语义的同时，尽可能消除风格子空间中的可识别信息，使得攻击者无法从清洗后的文本中还原出原始来源。

3. 实验验证与性能评估

研究团队通过实验对比了传统方法与 DiSan 的效果，主要结论包括：

传统方法的局限性：仅进行标识符级别的掩盖（masking）是不足的。实验显示，掩盖 19.2% 的 token 仅能将基于 TF-IDF 的文体学归因准确率降低 18.6%，这意味着大部分风格指纹依然保留。
DiSan 的有效性：
- PII 暴露降低：DiSan 将答案级别的 PII 暴露风险降低了 20 倍。
- 语义保真度：在分布式多智能体 RAG 基准测试中，DiSan 保持了 83% 的答案忠实度（answer faithfulness），证明其并未严重损害任务性能。
- 风格指纹消除：在 Enron 数据集的文体学归因测试中，DiSan 将基于 TF-IDF 的归因准确率降低了 73.2%，基于神经探针（neural probe）的归因准确率降低了 70.6%。

关键要点

隐私风险的新维度：跨组织智能体协作的隐私泄露不仅来自显式 PII，更来自隐含的分布特征签名（格式、词汇、句法）。
DiSan 框架核心：通过双流编码器将文本解耦为“语义子空间”和“风格子空间”，前者共享，后者本地保留。
训练机制创新：采用联邦原型对齐和对抗正则化，实现无需集中原始数据的隐私保护联合训练。
传统方法失效：简单的 token 掩盖无法有效消除文体学指纹，掩盖近 20% 的 token 仅能微弱降低归因准确率。
性能平衡：DiSan 在大幅降低 PII 暴露（20倍）和风格归因风险（~70-73%）的同时，保持了较高的任务语义保真度（83%）。

意义与影响

DiSan 的提出为分布式多智能体系统的安全协作提供了新的技术路径。其意义主要体现在以下几个方面：

突破传统隐私保护的瓶颈：证明了仅依靠实体识别和掩盖不足以保护隐私，必须从表示学习（Representation Learning）的层面进行特征解耦，才能有效应对基于文体学的推断攻击。
促进跨组织 AI 协作：通过 Intern-Shannon 内置组件的形式，DiSan 降低了企业间共享数据时的合规风险，有助于打破数据孤岛，推动更广泛的分布式 AI 应用落地。
平衡隐私与效用：实验结果证实，在严格保护隐私的同时，可以维持较高的任务性能（83% 忠实度），这解决了隐私保护往往以牺牲模型效用为代价的行业痛点。
方法论的普适性：基于解耦表示和对抗训练的方法论，不仅适用于文本清洗，也为其他模态（如代码、语音）的隐私保护提供了参考范式。

总之，DiSan 代表了一种从“数据掩盖”向“特征解耦”转变的隐私保护新趋势，对于构建可信、安全的下一代分布式智能体生态系统具有重要价值。

查看原文 →arxiv.org