将个人知识图谱从“字符串”升级为“事物”:LLM三元组提取推荐系统评估
速览
个人知识图谱通过模型化用户偏好实现隐私保护,但从非结构化对话数据构建仍具挑战。本研究设计可复现的轻量LLM管道,利用Qwen和Gemma等模型从对话中提取符合RDF规范并链接Wikidata标识的三元组。评估涵盖语义提取精度及图谱在推荐任务中的实际效用,结果显示表现突出的模型在提取准确性与下游推荐表现上高度一致。
AI 深度解读
## 背景
Personal Knowledge Graphs(PKGs)作为隐私保护的框架,用于建模用户偏好,为用户提供个性化服务。与此同时,将非结构化的、分散的对话数据构建成可操作的语义图表仍然面临挑战。这一领域的研究日益受到关注,因为个人数据所有权日益重要,隐私成为核心考量点。
## 核心内容
论文提出了一种可重现的管道,将对话中的“字符串”(字符串形式的自然语言文本)转换为语义“事物”(结构化RDF三元组),以构建个人知识图谱(Personal Knowledge Graphs)。管道基于轻量级大型语言模型(LLMs),重点评估Qwen和Gemma系列模型在从对话数据中提取RDF-compliant三元组(RDF合规三元组)的能力。这些三元组需链接到Wikidata标识符,用于PKG构建。评估涵盖两方面:一是语义提取保真度(semantic extraction fidelity),二是下游推荐任务中图的实用性(utility of the resulting graphs)。
核心方法是使用专门设计的提示模板从对话中提取用户偏好三元组。提示模板强调严格规则:仅提取用户明确陈述的偏好;仅针对具体电影标题(无类型、演员或系列提及);主体必须始终为“User”(而非“You”);关系使用小写形式(如likes、dislikes、seen、notSeen、suggested);输出仅为精确格式的三元组或“No triples found.”。提示中包含K-shot示例(few-shot examples),展示输入对话与正确输出三元组的对应。
评估数据基于Wikidata电影数据:脚本查询Wikidata SPARQL端点,检索电影标题、IRI(Internationalized Resource Identifiers)和发布年份,自动去重。样本数据文件夹包含可复现的电影数据。基准测试脚本(test.py)支持多种模型(如Qwen/Qwen3系列、Gemma系列),可设置测试点数量(默认为300)。模型输出响应保存在responses文件夹中,后续评估脚本(evaluateDataset.py)计算指标。
评估指标包括提取保真度(fidelity)和推荐性能。论文发现某些模型在三元组提取保真度上表现良好,且下游推荐任务性能与提取表现成比例提升。整个流程高度可复现,支持Hugging Face模型加载、自定义基模型路径和不加载模型选项(以重新计算指标)。
## 关键要点
- 管道设计:轻量级LLM驱动的端到端管道,实现从对话“字符串”到PKG“事物”的转换,专注于RDF三元组与Wikidata链接。
- 模型评估:Qwen和Gemma系列模型作为轻量级选项,针对语义保真度和推荐实用性进行双重测试。
- 严格提示工程:提示模板强制仅提取显式偏好三元组(用户明确表达),避免模糊生成;关系标准化为小写形式,输出格式固定。
- 数据来源:Wikidata电影数据集,支持复现性查询与去重,包含标题、IRI和年份。
- 下游任务:提取的三元组用于推荐系统,验证图的实用性与提取保真度的正相关性。
- 可复现性:GitHub仓库(brains-group/LLMTripleExtractor)提供完整代码、样例数据和脚本,基准测试通过test.py和evaluateDataset.py运行。
## 意义与影响
该工作为构建隐私保护的个人知识图谱提供了一种实用、可扩展的解决方案,直接连接对话数据与语义结构,在推荐系统等个性化应用中提升效率。轻量级模型的成功使用降低了计算门槛,使个人数据所有者能够自主构建并维护私有图谱,避免第三方数据共享。评估显示,提取保真度高的模型会带来相应推荐性能提升,证明了管道的实用价值。这项研究为后续工作提供了可重现基准,推动知识图谱在隐私敏感场景中的采用,并为agentic AI等新兴应用奠定基础。
