← 返回信息流
技术博客arXiv cs.AI·3 小时前

利用大模型自动化生成难题,推动神经关系推理基准测试

原标题:Project Auto-World: Towards Automated Benchmarking of Neural Relational Reasoners

速览

针对神经模型在关系推理中难以评估泛化能力的问题,研究提出利用大语言模型自动化生成基准测试。该方法通过LLM驱动的进化搜索,针对Datalog规则和Edge Transformer生成日益困难的实例。实验表明,利用这些数据可显著提升模型对数据扰动的泛化能力,并为神经关系推理的自主研究开辟新路径。

AI 深度解读

Project Auto-World:迈向神经关系推理器的自动化基准测试

背景

关系推理(Relational Reasoning)一直是神经网络模型面临的一项重大挑战。与处理独立同分布(i.i.d.)数据不同,关系推理要求模型能够系统地应用从训练数据中学到的知识,去解决比训练实例更复杂、更具挑战性的新问题。这种“系统性泛化”能力是衡量人工智能是否具备真正逻辑推理能力的关键指标。

然而,该领域的进展长期受到评估困难这一瓶颈的阻碍。在传统的基准测试中,研究者往往难以预先确定哪些问题实例是“困难”的,或者为什么它们是困难的。这种不确定性导致评估指标缺乏针对性,难以准确反映模型在极端或复杂场景下的真实泛化能力。因此,如何自动化地生成具有挑战性且定义明确的问题实例,成为提升神经关系推理器性能评估的关键痛点。

核心内容

本文提出了 Project Auto-World,旨在利用大型语言模型(LLMs)实现基准测试生成的自动化,从而系统地评估和提升神经关系推理器的性能。研究团队构建了一个端到端的框架,通过自动化手段发现并生成日益复杂的难题实例。

1. 框架架构与组件

该框架主要包含三个核心组件:

  • 世界定义(World Definition):问题空间由 Datalog 规则进行参数化定义。Datalog 是一种用于逻辑编程和数据库查询的子集,适合形式化描述关系结构。
  • 推理评估器(Reasoning Evaluator):采用 Edge Transformer 作为核心的推理评估模型。这是一种专门针对图结构或关系数据进行优化的 Transformer 变体,用于判断模型对特定实例的推理准确性。
  • 自动化生成引擎:利用 LLM 驱动的进化搜索(基于 FunSearch 算法)和自主智能体搜索(Autonomous Agentic Search),来发现能够生成高难度问题实例的采样函数。

2. 自动化难题发现机制

研究的核心创新在于利用 LLM 的生成能力与进化算法的结合。具体流程如下:

  • 进化搜索:基于 FunSearch 的框架,LLM 被用来生成或修改“采样函数”(Sampling Functions)。这些函数负责从参数化的 Datalog 世界中抽取问题实例。
  • 自主智能体迭代:系统通过自主智能体搜索,不断评估采样函数生成的实例难度。如果生成的实例被 Edge Transformer 正确解决,则可能过于简单;如果完全无法解决或导致评估器崩溃,则可能无效。系统旨在找到那些处于“边缘”的、具有挑战性但可解的实例。
  • 端到端优化:整个过程是端到端的,LLM 不仅生成代码或规则,还直接参与优化生成策略,使得生成的实例难度逐步提升,从而形成一条从易到难的挑战曲线。

3. 模型改进与泛化验证

研究不仅关注基准测试的生成,还验证了这种自动化数据对模型本身的提升作用:

  • 数据增强:使用 Auto-World 生成的困难实例数据对 Edge Transformer 进行微调或训练。
  • 泛化能力提升:实验结果表明,经过此类数据训练的 Edge Transformer 能够更好地泛化到进一步的数据扰动中,证明了自动化生成的“困难数据”具有极高的训练价值。

4. 扩展至新颖世界

最后,研究展示了该框架的通用性。除了预定义的 Datalog 世界,Auto-World 的机制同样可以应用于由 LLM 自主提出的“新颖世界”(Novel Worlds)。这意味着 LLM 不仅可以生成问题,还可以定义新的逻辑规则和世界结构,从而开启了神经关系推理领域自主研究的新篇章。

关键要点

  • 解决评估难题:Project Auto-World 解决了神经关系推理中“难以预先定义困难实例”的问题,通过自动化手段动态生成挑战性数据。
  • LLM 驱动的进化搜索:利用 LLM 结合 FunSearch 算法和自主智能体搜索,自动发现能生成高难度实例的采样函数,实现了基准测试生成的自动化。
  • Datalog 与 Edge Transformer 的结合:框架使用 Datalog 规则参数化世界结构,并使用 Edge Transformer 作为推理评估器,形成了逻辑定义与神经网络评估的闭环。
  • 提升模型泛化能力:使用 Auto-World 生成的困难数据训练 Edge Transformer,显著提升了模型在数据扰动下的泛化性能,证明了“困难数据”对模型鲁棒性的价值。
  • 自主研究的新范式:该框架不仅限于现有世界,还能应用于 LLM 自主提出的新颖世界,为神经关系推理的自主科学研究提供了工具基础。

意义与影响

Project Auto-World 代表了人工智能评估范式的一个重要转变,从静态、人工设计的基准测试向动态、自动化、自适应的基准测试演进。

首先,它解决了关系推理领域长期存在的“评估瓶颈”。通过自动化生成日益困难的实例,研究者可以更精确地定位模型的能力边界,识别出模型在系统性泛化方面的具体弱点,而不仅仅是平均性能。

其次,该方法论展示了 LLM 在科学发现中的潜力。LLM 不再仅仅是文本生成工具,而是成为了算法设计、数据生成和实验优化的核心引擎。这种“LLM + 进化算法 + 专用模型”的协作模式,为其他需要复杂逻辑推理或结构数据的领域(如数学定理证明、代码生成、科学发现)提供了可借鉴的框架。

最后,Project Auto-World 开启了自主研究(Autonomous Research)的可能性。当 LLM 能够自主定义世界规则、生成问题并评估推理器时,人类研究者的角色将从“设计实验”转变为“监督与引导”。这将加速神经关系推理器的发展,推动 AI 系统向更高层次的逻辑推理和通用智能迈进。

查看原文 →arxiv.org