技术博客Hugging Face Blog·17 小时前

MosaicLeaks：你的研究代理能保守秘密吗？

原标题：MosaicLeaks: Can your research agent keep a secret?

速览

MosaicLeaks 是一项针对 AI 研究代理的安全评估框架，旨在测试其在处理敏感信息时的保密能力。该研究揭示了当前代理在防止数据泄露方面存在的潜在漏洞。这一发现对于保障 AI 应用中的用户隐私和数据安全具有重要意义。

AI 深度解读

MosaicLeaks：你的研究智能体能保守秘密吗？

背景

随着大语言模型（LLM）能力的提升，Deep Research（深度研究） 智能体正变得日益流行。这类智能体通常结合私有本地文档与外部工具（如网络检索），以回答复杂的企业级问题。然而，这种架构引入了一种新的隐私风险：智能体发出的外部查询可能会无意中泄露敏感信息。

这种现象被称为“马赛克效应”（Mosaic Effect）。单个查询看起来可能无害，但攻击者通过观察智能体的出站流量，可以将多个看似普通的查询片段重新组装，从而推断出仅存在于私有文档中的机密事实。例如，一家医疗公司智能体在查询云迁移里程碑、2024年1月的安全披露以及受影响的供应商时，单独看每个查询都 innocuous，但组合起来就能揭示“MediConn 在2025年1月前已将70%的基础设施迁移到云端”这一内部机密。

MosaicLeaks 正是针对这一漏洞提出的新基准测试和解决方案。它通过构建多跳（multi-hop）问题，将公共信息与私有信息交织在一起，测试智能体在完成任务的同时能否保护隐私。

核心内容

1. 隐私泄露的三种衡量标准

MosaicLeaks 根据攻击者从观察到的查询中能推断出的信息程度，定义了三个层级的泄露指标：

意图泄露（Intent Leakage）：攻击者可以预测智能体正在调查的研究问题。
答案泄露（Answer Leakage）：查询日志中包含足够信息，使攻击者能够回答一个他们手中已持有的私有问题。
全信息泄露（Full-Information Leakage）：最强的泄露形式。观察者无需被提示寻找特定内容，即可发现并陈述可验证的私有事实。

2. MosaicLeaks 数据集构建

该基准测试包含 1,001 个 跨越本地企业文档和控制网络语料库的多跳研究链（chains）。

结构：每个链条交替包含本地子问题和网络子问题。前一个子问题的答案成为下一个子问题的“桥梁实体”，迫使智能体必须先检索本地信息，才能形成有用的网络查询。
数据来源：本地文档来自 DRBench 风格的企业任务，网络文档来自 BrowseComp-Plus。
划分：559 个训练链，98 个验证链，以及 344 个保留公司测试链。
示例：以 MediConn 云迁移链为例，最终的 Web 查询本身不包含私有信息，但由于路径依赖于私有本地事实，携带“MediConn”、“70%”和“1月”等关键词的查询足以让攻击者恢复内部信息。

3. 智能体执行框架

研究使用了一个简化版的智能体框架（Agent Harness）：

工具：模型在每个迭代中可使用四个工具：
- Plan：生成本地和网络搜索查询。
- Choose：选择检索到的文档进行阅读。
- Read：并行尝试从选定的文档中回答当前步骤。
- Resolve：决定是回答、阅读更多文档还是规划下一次搜索。
评估：每个子问题都有简短答案和理由，通过归一化字符串匹配单独评估每一步。

4. 简单提示词无效

直观的想法是在 Plan 提示词中加入“不要泄露本地信息”的指令。实验结果显示：

效果不一致，且显著泄露依然存在。
往往对任务性能产生负面影响。例如，对于 Qwen3-4B，提示词将答案/全信息泄露从 34.0% 降至 25.5%，但严格链成功率（strict chain success）从 48.7% 降至 44.5%。
主要行为变化是网络查询数量减少，而非查询构建更安全。

5. “做得更好”反而泄露更多

在针对隐私进行训练前，研究者尝试仅针对任务性能进行训练：

结果：严格链成功率从 48.7% 提升至 59.3%。
副作用：答案/全信息泄露随之攀升，从 34.0% 激增至 51.7%。
原因：模型学会了在网络查询中打包更多上下文，这有助于检索正确文档，但损害了隐私，因为更丰富的查询为观察者提供了更多碎片。这揭示了 MosaicLeaks 暴露的核心张力：信息量更大的查询通常对任务有益，但对隐私有害。

6. 解决方案：隐私感知深度研究（PA-DR）

为了解决上述张力，研究者提出了 Privacy-Aware Deep Research (PA-DR)，一种马赛克泄露感知强化学习（RL）训练方法。PA-DR 结合了两种奖励机制：

情境任务奖励（Situational Task Reward）：
- 由于一条研究轨迹可能包含数十次模型调用，仅给予最终轨迹分数会导致信用分配微弱。
- PA-DR 将每次调用与同一阶段、同一跳数、拥有相同信息的其他调用进行比较。
- 例如，Plan 调用因搜索正确源并检索正确文档而获得奖励；如果文档已在手，则因不重复搜索而获得奖励。
学习到的隐私奖励（Learned Privacy Reward）：
- 使用 Qwen3-4B 分类器估计两种风险：当前查询是否直接泄露私有信息，以及将其加入现有查询日志是否会产生新的马赛克泄露。
- PA-DR 对两者中较大的风险进行惩罚，将隐私成本精确地落在使查询日志更具揭示性的规划决策上。

7. PA-DR 的效果

性能与隐私平衡：PA-DR 将严格链成功率从 48.7% 提升至 58.7%，同时将答案/全信息泄露从 34.0% 大幅降至 9.9%。
优于基线：9.9% 的泄露率甚至低于未训练基线模型的 34.0%。这表明针对隐私的训练不仅抵消了针对性能训练引入的泄露，还使智能体比初始状态更安全。
并非减少搜索：PA-DR 实际上比基线模型发出更多的网络查询，但这些查询去除了揭示性细节（如具体指标“15%”或“2024”，以及答案类型的线索）。智能体仍能找到正确的公共文档，只是不再在查询文本中携带私有碎片。

关键要点

马赛克效应风险：深度研究智能体通过外部工具查询私有信息时，单个查询看似无害，但累积的查询日志可被攻击者重组以推断机密信息。
三维度泄露评估：MosaicLeaks 定义了意图泄露、答案泄露和全信息泄露三个层级，全面衡量隐私风险。
提示词局限性：简单的系统提示（Prompt）无法有效防止泄露，且可能损害任务性能。
性能与隐私的零和博弈：仅优化任务性能的强化学习会导致泄露率显著上升（从 34.0% 升至 51.7%），因为模型倾向于在查询中包含更多上下文。
PA-DR 创新机制：
- 引入情境任务奖励，对每一步骤进行细粒度的信用分配。
- 引入学习到的隐私奖励，利用分类器实时评估直接泄露和马赛克泄露风险。
显著成效：PA-DR 在提升严格链成功率（48.7% -> 58.7%）的同时，将泄露率降至 9.9%，实现了性能与隐私的双重优化。

意义与影响

MosaicLeaks 和 PA-DR 的研究揭示了当前 AI 智能体在部署于企业环境时面临的一个关键盲区：工具使用过程中的隐私侧信道攻击。

重新定义安全边界：传统隐私保护关注数据静态存储或推理时的直接暴露，而 MosaicLeaks 指出，智能体的行为轨迹（查询日志） 本身就是一个巨大的隐私泄露通道。即使

查看原文 →huggingface.co