技术博客arXiv cs.CL·3 小时前

ProfileFoundry: 面向LLM智能体隐私与记忆评估的合成数据底座

原标题：ProfileFoundry: A Synthetic Person-Object Substrate for Privacy, Memory, and Tool-Use Evaluation in LLM Agent

速览

ProfileFoundry是一个确定性生成器，发布了包含10万成人合成人物对象的固定参考数据集。该数据集涵盖跨字段和时序一致性，旨在为大语言模型智能体的记忆、隐私、文档理解及状态评估提供负责任且可审计的合成数据源。

随着基础模型（Foundation Models）研究的深入，数据需求正从单纯的文本语料转向更复杂、更具结构化的“人”的数据。现代大语言模型（LLM）应用，特别是智能体（Agent）系统，需要处理用户状态、个人历史、人际关系、类通讯录字段、文档以及纵向的时间序列更新。

然而，这一需求与现实中的数据可用性之间存在巨大鸿沟：

真实数据的局限性：真实的用户数据难以共享、扰动、审计或负责任地重新分发，主要受限于隐私法规（如GDPR）和商业机密保护。
现有合成数据的缺陷：目前独立生成的虚假字段往往缺乏跨字段的一致性（Cross-field consistency）和时间上的连贯性（Temporal consistency）。这意味着它们无法用于受控的、严谨的评估，因为模型可能会利用数据中的逻辑矛盾或统计异常进行“作弊”，而非真正理解语义或关系。

因此，业界急需一种既能保证隐私安全，又能维持复杂逻辑一致性的合成数据源，以支持涉及记忆、隐私、文档理解和智能体状态的基准测试。

本文介绍了 ProfileFoundry，这是一个确定性的合成数据生成器及其配套的固定参考发布版本。该数据集旨在为LLM智能体在隐私、记忆和工具使用方面的评估提供一个“合成人格-对象基底”（Synthetic Person-Object Substrate）。

ProfileFoundry 生成了 100,000 个成人合成“人格对象”（Person Objects），覆盖 8 个不同的地区（Locales）。每个“人格对象”并非孤立的数据点，而是一个包含多维关联的结构化实体，具体包括：

该发布版本包含以下详细统计信息：

作者报告了多个类别的证据来验证数据质量，包括：

作者明确指出，ProfileFoundry 不是：

ProfileFoundry 的定位是：一个负责任的合成数据源层，用于构建下游的基础模型评估任务。其核心优势在于，每个合成人格背后的生成逻辑都是可检查（Inspectable）的，从而允许研究人员在涉及记忆、隐私、文档理解、记录链接和智能体状态的任务中，进行可控且可复现的评估。

解决数据可用性瓶颈：通过确定性生成器，解决了真实用户数据难以共享和审计的问题，同时克服了现有合成数据缺乏跨字段和时间一致性的缺陷。
结构化与关联性：不同于简单的文本生成，ProfileFoundry 强调“人格对象”的结构化属性，包括家庭、雇主、事件等多维关系，适合评估智能体的复杂推理能力。
可审计性与溯源：提供生成溯源（Provenance），使得每个数据点的生成逻辑可追溯，这是评估模型是否“记住”或“泄露”敏感信息的关键基础。
多地区覆盖：涵盖8个不同地区，有助于评估模型在不同文化或法律背景下的表现差异。
面向智能体评估：特别针对LLM Agent的三大核心能力进行评估：隐私保护（不泄露敏感关联）、记忆（长期状态维护）和工具使用（基于结构化数据的操作）。
非隐私保护机制：需明确区分，该数据集本身不是隐私保护技术（如差分隐私），而是一种用于评估隐私相关任务的数据基础设施。

ProfileFoundry 的发布标志着LLM评估从“文本生成质量”向“结构化智能体行为”的重要转变。

推动智能体基准测试的标准化：现有的LLM基准多侧重于知识问答或代码生成，缺乏对智能体长期记忆、复杂关系推理和隐私边界的标准化测试数据。ProfileFoundry 提供了一个固定的、可复现的参考系，使得不同研究团队可以在同一基准上公平比较智能体的性能。
促进负责任的AI研究：通过提供可审计的合成数据，研究人员可以在不侵犯真实用户隐私的前提下，深入探索模型如何处理敏感个人信息、如何维护长期记忆以及如何在工具使用中遵守隐私规则。这有助于发现模型在隐私保护方面的潜在漏洞。
简化数据工程流程：对于需要大量结构化用户数据进行模型训练或评估的团队，ProfileFoundry 提供了一个即插即用的数据源，减少了数据清洗、脱敏和一致性校验的高昂成本。
揭示模型局限性：通过引入复杂的跨字段和时间一致性约束，ProfileFoundry 能够更有效地暴露出当前LLM在处理长期依赖、逻辑一致性和关系推理方面的局限性，从而引导未来模型架构的改进。

总之，ProfileFoundry 不仅是一个数据集，更是连接基础模型研究与实际智能体应用之间的一座桥梁，为构建更安全、更可靠、更具记忆能力的AI系统提供了关键的评估基础设施。