← 返回信息流
技术博客arXiv cs.AI·2 小时前

检索增强形式概念分析实现知识可验证扩展

原标题:Verifiable Knowledge Expansion through Retrieval-Grounded Formal Concept Analysis

速览

本文提出一种检索增强小型语言模型框架,利用形式概念分析构建符号验证循环来扩展知识。框架从种子属性出发,形式概念分析提出蕴含关系,检索增强的语言模型Oracle验证每个蕴含或返回反例,同时支持发生判断、一致性检查和属性提案,使接受的知识、反例和修正可检查。实验在罕见共济失调数据集中,10种子运行的关系F1达到0.29-0.52,基于闭包的蕴含F1为0.22-0.30。较大种子集可提升评估蕴含数量并常改善F1,消融实验显示固定对象-属性设置中的发生判断有助于提升闭包蕴含分数,但仍需更精确识别正样本对。该方法为语义知识的可靠自动化构建提供新型可验证路径,具有重要意义。

AI 深度解读

背景

计算机科学领域中,形式概念分析(Formal Concept Analysis,简称 FCA)是一种经典的符号方法,用于从对象、属性及其二元关系的集合中自动推导出形式概念(形式上等价的对象-属性聚类)和蕴涵关系(implications)。传统 FCA 缺乏足够的信息时,难以直接应用于大规模或开放领域的知识获取。

大型语言模型(LLMs)在文本生成和结构化知识建议方面展现出强大能力,但其输出的对象、属性或关系仍可能存在不支持的事实或逻辑不一致性。检索增强型(retrieval-augmented)小型语言模型(small language model,简称 SLM)通过引入外部知识库检索机制,可显著降低幻觉风险,同时保持计算效率。

本文针对这一瓶颈,提出一种可验证的知识扩展框架,采用 FCA 作为符号验证循环,结合检索-grounded 的 SLM 作为事实检查器,实现从种子知识开始的可靠知识增长。

核心内容

本论文提出了一种检索增强型小型语言模型(SLM)框架,将形式概念分析(FCA)作为知识扩展过程中的符号验证循环。框架从种子属性(seed attributes)开始,构建一个不断增长的形式上下文(formal context),其中包含对象(objects)、属性(attributes)和二元关系(incidence matrix)。

FCA 自动生成蕴涵(implications),即“如果对象具有某些属性,则必然具有其他属性”的逻辑规则,这些蕴涵可视为形式概念的闭包运算结果。每一轮迭代中,FCA 会基于当前上下文提出新的蕴涵。

为了确保蕴涵的真实性,一种检索-grounded 的 SLM 作为 oracle(事实检查器)介入:它对每个蕴涵进行验证。验证逻辑包括:

  • 接受该蕴涵(如果通过验证);
  • 返回反例(counterexample),证明该蕴涵不成立;
  • 执行一致性检查;
  • 支持属性提案(attribute proposals)。

此外,oracle 还能执行关联判断(incidence judgments)和属性建议,使框架生成的接受后的蕴涵、反例、矛盾点以及修正建议全部可解释且可人工审阅。

在罕见病 ataxia 的特定实验设置中,研究人员利用 Orphadata 资源构建数据集。采用 10 个种子属性的检索-grounded 运行,测试了 0.29–0.52 的关系 F1 分数,以及 0.22–0.30 的基于闭包的蕴涵 F1 分数。增加种子集大小会显著提升待评估的蕴涵数量,并经常提升蕴涵 F1 分数。

实验结果显示,蕴涵评分偏低的原因在于评估的严格性:一个遗漏或多余的关系可能影响多个蕴涵判断。消融实验(ablation studies)表明,在固定对象-属性设置下,引入关联判断能够有效提升基于闭包的蕴涵评分。然而,即使候选对象和属性完全固定,确定哪些为正例(positive object-attribute pairs)仍具有挑战性。

关键要点

  • 提出首个将 FCA 作为符号验证循环的检索增强 SLM 框架,实现可检验的知识扩展。
  • 种子属性驱动 FCA 自动生成蕴涵,SLM oracle 提供事实验证、反例返回、一致性检查及属性提案支持。
  • 所有生成内容(接受蕴涵、反例、矛盾、修正)均可 inspectable,便于人工干预。
  • 在 ataxia 数据集上,10-seed 运行获得关系 F1 0.29–0.52、蕴涵 F1 0.22–0.30;种子集增大后评估量增加且 F1 常提升。
  • 严格评估导致蕴涵分数偏低,一个错误关系即可影响多条蕴涵;闭包操作的评分可通过固定设置下的关联判断显著改善。
  • 属性提案与正例判定难度较大,需进一步优化以提升整体可靠性。

意义与影响

该框架为知识图谱、知识图灵机(Knowledge Graphs)以及符号 AI 知识工程领域提供了一条可靠、可解释的路径:通过符号(FCA)与神经(SLM)方法的结合,既保留了逻辑严谨性,又能高效吸收结构化外部知识。

在罕见病与医学本体构建等高价值领域,模型可将不可解释的潜在关系转化为可验证的知识条目,显著降低决策风险。未来可进一步优化 oracle(例如更高效的 SLM 或强化学习检索策略),解决属性提案和正例判定的挑战,实现更高规模、更高准确率的自动化知识扩展。

此外,该工作为可信 AI(Trustworthy AI)提供了新范式:任何生成的知识都附带反例和修正历史,便于人类监督与持续迭代。研究团队已开源代码、数据与演示,支持社区复现与扩展,推动符号神经混合系统在真实世界知识获取中的实用落地。

查看原文 →arxiv.org