← 返回信息流
技术博客Hugging Face Blog·17 小时前

MosaicLeaks:你的研究代理能保守秘密吗?

原标题:MosaicLeaks: Can your research agent keep a secret?

速览

MosaicLeaks 是一项针对 AI 研究代理的安全评估框架,旨在测试其在处理敏感信息时的保密能力。该研究揭示了当前代理在防止数据泄露方面存在的潜在漏洞。这一发现对于保障 AI 应用中的用户隐私和数据安全具有重要意义。

AI 深度解读

MosaicLeaks:你的研究智能体能保守秘密吗?

背景

随着大语言模型(LLM)能力的提升,Deep Research(深度研究) 智能体正变得日益流行。这类智能体通常结合私有本地文档与外部工具(如网络检索),以回答复杂的企业级问题。然而,这种架构引入了一种新的隐私风险:智能体发出的外部查询可能会无意中泄露敏感信息。

这种现象被称为“马赛克效应”(Mosaic Effect)。单个查询看起来可能无害,但攻击者通过观察智能体的出站流量,可以将多个看似普通的查询片段重新组装,从而推断出仅存在于私有文档中的机密事实。例如,一家医疗公司智能体在查询云迁移里程碑、2024年1月的安全披露以及受影响的供应商时,单独看每个查询都 innocuous,但组合起来就能揭示“MediConn 在2025年1月前已将70%的基础设施迁移到云端”这一内部机密。

MosaicLeaks 正是针对这一漏洞提出的新基准测试和解决方案。它通过构建多跳(multi-hop)问题,将公共信息与私有信息交织在一起,测试智能体在完成任务的同时能否保护隐私。

核心内容

1. 隐私泄露的三种衡量标准

MosaicLeaks 根据攻击者从观察到的查询中能推断出的信息程度,定义了三个层级的泄露指标:

  • 意图泄露(Intent Leakage):攻击者可以预测智能体正在调查的研究问题。
  • 答案泄露(Answer Leakage):查询日志中包含足够信息,使攻击者能够回答一个他们手中已持有的私有问题。
  • 全信息泄露(Full-Information Leakage):最强的泄露形式。观察者无需被提示寻找特定内容,即可发现并陈述可验证的私有事实。

2. MosaicLeaks 数据集构建

该基准测试包含 1,001 个 跨越本地企业文档和控制网络语料库的多跳研究链(chains)。

  • 结构:每个链条交替包含本地子问题和网络子问题。前一个子问题的答案成为下一个子问题的“桥梁实体”,迫使智能体必须先检索本地信息,才能形成有用的网络查询。
  • 数据来源:本地文档来自 DRBench 风格的企业任务,网络文档来自 BrowseComp-Plus。
  • 划分:559 个训练链,98 个验证链,以及 344 个保留公司测试链。
  • 示例:以 MediConn 云迁移链为例,最终的 Web 查询本身不包含私有信息,但由于路径依赖于私有本地事实,携带“MediConn”、“70%”和“1月”等关键词的查询足以让攻击者恢复内部信息。

3. 智能体执行框架

研究使用了一个简化版的智能体框架(Agent Harness):

  • 工具:模型在每个迭代中可使用四个工具:
    • Plan:生成本地和网络搜索查询。
    • Choose:选择检索到的文档进行阅读。
    • Read:并行尝试从选定的文档中回答当前步骤。
    • Resolve:决定是回答、阅读更多文档还是规划下一次搜索。
  • 评估:每个子问题都有简短答案和理由,通过归一化字符串匹配单独评估每一步。

4. 简单提示词无效

直观的想法是在 Plan 提示词中加入“不要泄露本地信息”的指令。实验结果显示:

  • 效果不一致,且显著泄露依然存在。
  • 往往对任务性能产生负面影响。例如,对于 Qwen3-4B,提示词将答案/全信息泄露从 34.0% 降至 25.5%,但严格链成功率(strict chain success)从 48.7% 降至 44.5%。
  • 主要行为变化是网络查询数量减少,而非查询构建更安全。

5. “做得更好”反而泄露更多

在针对隐私进行训练前,研究者尝试仅针对任务性能进行训练:

  • 结果:严格链成功率从 48.7% 提升至 59.3%。
  • 副作用:答案/全信息泄露随之攀升,从 34.0% 激增至 51.7%。
  • 原因:模型学会了在网络查询中打包更多上下文,这有助于检索正确文档,但损害了隐私,因为更丰富的查询为观察者提供了更多碎片。这揭示了 MosaicLeaks 暴露的核心张力:信息量更大的查询通常对任务有益,但对隐私有害。

6. 解决方案:隐私感知深度研究(PA-DR)

为了解决上述张力,研究者提出了 Privacy-Aware Deep Research (PA-DR),一种马赛克泄露感知强化学习(RL)训练方法。PA-DR 结合了两种奖励机制:

  • 情境任务奖励(Situational Task Reward)

    • 由于一条研究轨迹可能包含数十次模型调用,仅给予最终轨迹分数会导致信用分配微弱。
    • PA-DR 将每次调用与同一阶段、同一跳数、拥有相同信息的其他调用进行比较。
    • 例如,Plan 调用因搜索正确源并检索正确文档而获得奖励;如果文档已在手,则因不重复搜索而获得奖励。
  • 学习到的隐私奖励(Learned Privacy Reward)

    • 使用 Qwen3-4B 分类器估计两种风险:当前查询是否直接泄露私有信息,以及将其加入现有查询日志是否会产生新的马赛克泄露。
    • PA-DR 对两者中较大的风险进行惩罚,将隐私成本精确地落在使查询日志更具揭示性的规划决策上。

7. PA-DR 的效果

  • 性能与隐私平衡:PA-DR 将严格链成功率从 48.7% 提升至 58.7%,同时将答案/全信息泄露从 34.0% 大幅降至 9.9%。
  • 优于基线:9.9% 的泄露率甚至低于未训练基线模型的 34.0%。这表明针对隐私的训练不仅抵消了针对性能训练引入的泄露,还使智能体比初始状态更安全。
  • 并非减少搜索:PA-DR 实际上比基线模型发出更多的网络查询,但这些查询去除了揭示性细节(如具体指标“15%”或“2024”,以及答案类型的线索)。智能体仍能找到正确的公共文档,只是不再在查询文本中携带私有碎片。

关键要点

  • 马赛克效应风险:深度研究智能体通过外部工具查询私有信息时,单个查询看似无害,但累积的查询日志可被攻击者重组以推断机密信息。
  • 三维度泄露评估:MosaicLeaks 定义了意图泄露、答案泄露和全信息泄露三个层级,全面衡量隐私风险。
  • 提示词局限性:简单的系统提示(Prompt)无法有效防止泄露,且可能损害任务性能。
  • 性能与隐私的零和博弈:仅优化任务性能的强化学习会导致泄露率显著上升(从 34.0% 升至 51.7%),因为模型倾向于在查询中包含更多上下文。
  • PA-DR 创新机制
    • 引入情境任务奖励,对每一步骤进行细粒度的信用分配。
    • 引入学习到的隐私奖励,利用分类器实时评估直接泄露和马赛克泄露风险。
  • 显著成效:PA-DR 在提升严格链成功率(48.7% -> 58.7%)的同时,将泄露率降至 9.9%,实现了性能与隐私的双重优化。

意义与影响

MosaicLeaks 和 PA-DR 的研究揭示了当前 AI 智能体在部署于企业环境时面临的一个关键盲区:工具使用过程中的隐私侧信道攻击

  1. 重新定义安全边界:传统隐私保护关注数据静态存储或推理时的直接暴露,而 MosaicLeaks 指出,智能体的行为轨迹(查询日志) 本身就是一个巨大的隐私泄露通道。即使
查看原文 →huggingface.co