技术博客arXiv cs.AI·3 小时前

利用大模型自动化生成难题，推动神经关系推理基准测试

原标题：Project Auto-World: Towards Automated Benchmarking of Neural Relational Reasoners

速览

针对神经模型在关系推理中难以评估泛化能力的问题，研究提出利用大语言模型自动化生成基准测试。该方法通过LLM驱动的进化搜索，针对Datalog规则和Edge Transformer生成日益困难的实例。实验表明，利用这些数据可显著提升模型对数据扰动的泛化能力，并为神经关系推理的自主研究开辟新路径。

AI 深度解读

Project Auto-World：迈向神经关系推理器的自动化基准测试

背景

关系推理（Relational Reasoning）一直是神经网络模型面临的一项重大挑战。与处理独立同分布（i.i.d.）数据不同，关系推理要求模型能够系统地应用从训练数据中学到的知识，去解决比训练实例更复杂、更具挑战性的新问题。这种“系统性泛化”能力是衡量人工智能是否具备真正逻辑推理能力的关键指标。

然而，该领域的进展长期受到评估困难这一瓶颈的阻碍。在传统的基准测试中，研究者往往难以预先确定哪些问题实例是“困难”的，或者为什么它们是困难的。这种不确定性导致评估指标缺乏针对性，难以准确反映模型在极端或复杂场景下的真实泛化能力。因此，如何自动化地生成具有挑战性且定义明确的问题实例，成为提升神经关系推理器性能评估的关键痛点。

核心内容

本文提出了 Project Auto-World，旨在利用大型语言模型（LLMs）实现基准测试生成的自动化，从而系统地评估和提升神经关系推理器的性能。研究团队构建了一个端到端的框架，通过自动化手段发现并生成日益复杂的难题实例。

1. 框架架构与组件

该框架主要包含三个核心组件：

世界定义（World Definition）：问题空间由 Datalog 规则进行参数化定义。Datalog 是一种用于逻辑编程和数据库查询的子集，适合形式化描述关系结构。
推理评估器（Reasoning Evaluator）：采用 Edge Transformer 作为核心的推理评估模型。这是一种专门针对图结构或关系数据进行优化的 Transformer 变体，用于判断模型对特定实例的推理准确性。
自动化生成引擎：利用 LLM 驱动的进化搜索（基于 FunSearch 算法）和自主智能体搜索（Autonomous Agentic Search），来发现能够生成高难度问题实例的采样函数。

2. 自动化难题发现机制

研究的核心创新在于利用 LLM 的生成能力与进化算法的结合。具体流程如下：

进化搜索：基于 FunSearch 的框架，LLM 被用来生成或修改“采样函数”（Sampling Functions）。这些函数负责从参数化的 Datalog 世界中抽取问题实例。
自主智能体迭代：系统通过自主智能体搜索，不断评估采样函数生成的实例难度。如果生成的实例被 Edge Transformer 正确解决，则可能过于简单；如果完全无法解决或导致评估器崩溃，则可能无效。系统旨在找到那些处于“边缘”的、具有挑战性但可解的实例。
端到端优化：整个过程是端到端的，LLM 不仅生成代码或规则，还直接参与优化生成策略，使得生成的实例难度逐步提升，从而形成一条从易到难的挑战曲线。

3. 模型改进与泛化验证

研究不仅关注基准测试的生成，还验证了这种自动化数据对模型本身的提升作用：

数据增强：使用 Auto-World 生成的困难实例数据对 Edge Transformer 进行微调或训练。
泛化能力提升：实验结果表明，经过此类数据训练的 Edge Transformer 能够更好地泛化到进一步的数据扰动中，证明了自动化生成的“困难数据”具有极高的训练价值。

4. 扩展至新颖世界

最后，研究展示了该框架的通用性。除了预定义的 Datalog 世界，Auto-World 的机制同样可以应用于由 LLM 自主提出的“新颖世界”（Novel Worlds）。这意味着 LLM 不仅可以生成问题，还可以定义新的逻辑规则和世界结构，从而开启了神经关系推理领域自主研究的新篇章。

关键要点

解决评估难题：Project Auto-World 解决了神经关系推理中“难以预先定义困难实例”的问题，通过自动化手段动态生成挑战性数据。
LLM 驱动的进化搜索：利用 LLM 结合 FunSearch 算法和自主智能体搜索，自动发现能生成高难度实例的采样函数，实现了基准测试生成的自动化。
Datalog 与 Edge Transformer 的结合：框架使用 Datalog 规则参数化世界结构，并使用 Edge Transformer 作为推理评估器，形成了逻辑定义与神经网络评估的闭环。
提升模型泛化能力：使用 Auto-World 生成的困难数据训练 Edge Transformer，显著提升了模型在数据扰动下的泛化性能，证明了“困难数据”对模型鲁棒性的价值。
自主研究的新范式：该框架不仅限于现有世界，还能应用于 LLM 自主提出的新颖世界，为神经关系推理的自主科学研究提供了工具基础。

意义与影响

Project Auto-World 代表了人工智能评估范式的一个重要转变，从静态、人工设计的基准测试向动态、自动化、自适应的基准测试演进。

首先，它解决了关系推理领域长期存在的“评估瓶颈”。通过自动化生成日益困难的实例，研究者可以更精确地定位模型的能力边界，识别出模型在系统性泛化方面的具体弱点，而不仅仅是平均性能。

其次，该方法论展示了 LLM 在科学发现中的潜力。LLM 不再仅仅是文本生成工具，而是成为了算法设计、数据生成和实验优化的核心引擎。这种“LLM + 进化算法 + 专用模型”的协作模式，为其他需要复杂逻辑推理或结构数据的领域（如数学定理证明、代码生成、科学发现）提供了可借鉴的框架。

最后，Project Auto-World 开启了自主研究（Autonomous Research）的可能性。当 LLM 能够自主定义世界规则、生成问题并评估推理器时，人类研究者的角色将从“设计实验”转变为“监督与引导”。这将加速神经关系推理器的发展，推动 AI 系统向更高层次的逻辑推理和通用智能迈进。

查看原文 →arxiv.org