技术博客arXiv cs.CL·3 天前

MosaicLeaks揭示深度研究代理查询开放网络时的隐私泄露风险

原标题：MosaicLeaks:Privacy Risks in Querying-in-the-Open for Deep Research Agents

速览

MosaicLeaks基准测试发现，深度研究代理在结合本地私有文档与外部网络检索时，其查询行为可能通过“马赛克效应”泄露敏感信息。研究提出隐私感知深度研究（PA-DR）强化学习框架，在提升模型准确率的同时显著降低了答案及完整信息的泄露风险。

AI 深度解读

MosaicLeaks：深度研究智能体在“公开查询”中的隐私泄露风险深度解读

背景

随着大语言模型（LLM）技术的演进，Deep Research Agents（深度研究智能体）正逐渐成为企业和个人获取复杂信息的重要工具。这类智能体的核心工作流通常包含两个关键步骤：首先，利用本地私有文档（如企业内部报告、机密文件、个人笔记等）构建上下文；其次，通过外部工具（如网页检索 API）获取最新的公开信息，以补充或验证本地知识。

然而，这种“本地上下文 + 外部检索”的混合架构引入了一种隐蔽且严重的隐私风险：外部查询泄露。当智能体为了回答基于私有文档的问题而向搜索引擎发起查询时，其生成的查询语句（Query）可能无意中暴露了本地上下文中包含的敏感信息。

这种风险并非简单的单次泄露，而是呈现出一种**“马赛克效应”（Mosaic Effect）**。单个查询看起来可能无害或模糊，但当攻击者收集并聚合多个查询时，便能拼凑出完整的敏感信息图景。目前，缺乏针对这一特定场景的系统性评估基准，且现有的隐私保护提示（Privacy Prompting）或单纯的性能优化策略并未能有效解决这一问题。

核心内容

本文提出并引入了 MosaicLeaks，这是一个专门用于评估深度研究智能体隐私风险的基准测试套件。该研究不仅揭示了风险的存在，还提出了一种新的强化学习框架 Privacy-Aware Deep Research (PA-DR) 来缓解这一风险。

1. MosaicLeaks 基准测试设计

MosaicLeaks 包含 1,001 个多跳（multi-hop）深度研究任务。其设计核心在于强制智能体在推理过程中依赖本地私有信息来生成外部查询。具体流程如下：

数据构成：结合了私有企业文档和公共网络语料库。
任务逻辑：智能体必须阅读私有文档，理解其中的实体或关系，然后生成针对公共网络的查询语句以获取额外信息。这意味着查询语句必然包含源自私有文档的线索。
评估目标：模拟一个仅能观察智能体外部查询的对手（Adversary LLM），尝试推断以下三个层级的私有信息：
1. 研究意图：智能体正在研究什么主题或实体。
2. 特定私有问题的答案：直接推断出私有文档中的具体事实。
3. 关于企业文档的可验证声明：推断出私有文档中存在的特定陈述或数据点。

2. 实验发现：现有模型的普遍脆弱性

研究人员对多个模型家族和不同规模的模型进行了评估，得出了令人担忧的结论：

普遍泄露：几乎所有模型在三个评估层级上均表现出频繁的泄露行为。
零样本提示的局限性：使用零样本隐私提示（Zero-shot privacy prompting，即在提示词中明确要求“不要泄露隐私”）虽然能减少部分泄露，但无法消除泄露。
性能优化的副作用：仅针对任务性能进行强化学习（Reinforcement Learning, RL）训练，反而加剧了泄露风险。这表明模型在优化回答准确率时，可能会牺牲隐私保护，生成更具信息量的查询。

3. 解决方案：PA-DR 框架

为了应对上述挑战，作者提出了 Privacy-Aware Deep Research (PA-DR) 框架。这是一个结合了任务成功奖励和隐私保护的强化学习框架：

情境奖励（Situational Rewards）：保留传统的任务成功奖励，确保智能体仍能准确完成研究任务。
隐私分类器（Learned Privacy Classifier）：引入一个专门的隐私分类器，用于实时评估查询的隐私风险。
密集信用分配（Dense Credit Assignment）：该框架不仅评估最终答案的隐私性，还针对单次查询和**马赛克级别（聚合后）**的泄露提供密集的奖励/惩罚信号。这使得模型能够学习到在生成查询时如何平衡信息获取与隐私保护。

4. 实验结果

在 Qwen3-4B-Instruct 模型上应用 PA-DR 框架后，取得了显著成效：

准确率提升：任务准确率从 48.7% 提升至 58.7%。
泄露大幅降低：
- 答案泄露率从 34.0% 降至 9.9%。
- 全信息泄露（Full-information leakage）显著减少。

这证明了在强化学习过程中引入显式的隐私约束，不仅能保护隐私，甚至可能通过更精细的查询策略间接提升任务表现。

关键要点

新型隐私威胁：深度研究智能体在结合本地私有数据和外部检索时，存在通过外部查询语句泄露私有信息的风险，且这种风险具有“马赛克效应”，即单次查询看似无害，聚合后极具破坏力。
基准测试 MosaicLeaks：发布了包含 1,001 个多跳任务的基准测试，强制模型依赖私有信息生成外部查询，并定义了三个层级的隐私泄露评估标准（研究意图、具体答案、可验证声明）。
现有方法失效：
- 零样本隐私提示只能缓解而无法根除泄露。
- 仅优化任务性能的强化学习训练会恶化隐私泄露情况。
PA-DR 框架的有效性：提出的 PA-DR 框架通过结合任务奖励和基于学习到的隐私分类器的密集信用分配，成功在 Qwen3-4B-Instruct 上将答案泄露率从 34.0% 降低至 9.9%，同时将准确率从 48.7% 提升至 58.7%。
隐私与性能的平衡：研究表明，显式的隐私保护机制可以与任务性能优化共存，甚至在某些情况下协同提升模型的整体表现。

意义与影响

MosaicLeaks 的研究对 AI 安全和企业级 AI 应用具有深远的影响：

填补评估空白：现有的隐私基准测试多关注输入/输出内容的直接泄露，而 MosaicLeaks 首次系统性地量化了“中间过程”（即外部查询）中的隐私风险，为评估 RAG（检索增强生成）和深度研究智能体的安全性提供了新标准。
警示企业部署策略：对于希望将 AI 智能体集成到企业工作流中的组织，本研究是一个重要的警示。它表明，仅仅依靠提示词工程（Prompt Engineering）无法保障数据安全，必须在模型训练和推理阶段引入更深层的隐私保护机制。
推动隐私增强 AI 的发展：PA-DR 框架展示了通过强化学习中的密集信用分配来优化隐私-性能权衡的可行性。这为未来开发更安全的智能体架构提供了技术路径，即不仅要让模型“回答正确”，还要让模型“问得安全”。
重新定义“马赛克效应”在 AI 中的角色：研究强调了聚合查询的风险，促使开发者在设计智能体时，不仅要审查单次交互，还要考虑长期交互日志的聚合分析风险，从而推动更全面的隐私合规策略。

总之，随着深度研究智能体在企业中的普及，MosaicLeaks 和 PA-DR 为构建既智能又安全的 AI 助手提供了关键的理论和实践基础。

查看原文 →arxiv.org