技术博客arXiv cs.AI·1 小时前

图原生强化学习让科学假设生成更可追溯

原标题：Graph-Native Reinforcement Learning Enables Traceable Scientific Hypothesis Generation through Conceptual Recombination

速览

Graph-PRefLexOR 是一系列图原生推理模型，使用 Group Relative Policy Optimization (GRPO) 进行微调，将推理组织为机制探索、图构建、模式提取和假设合成等明确阶段。该模型将语言生成与符号关系结构紧密链接，构建可因果检验和重复使用的连接。在材料科学和力学领域100个开放性问题测试中，Graph-PRefLexOR 相比基线模型在推理可追溯性上提升40-65%，语义多样性约为基线的2-3倍。通过语义回溯和层级隐藏状态分析，证明结构化推理与最终答案高度一致。实验还显示，测试时图扩展主要增强了语义空间内的长程概念重组，而非简单扩展覆盖范围。这一突破为材料设计等科学领域构建可解释AI系统提供了新路径，推动AI在科学研究中的可信应用。

AI 深度解读

背景

在材料科学与力学等领域的发现中，人工智能系统亟需能够通过多步领域 grounding 的推理生成科学上有效的假设。传统的大型语言模型在面对开放式材料设计问题时，往往生成流畅但可追溯性较弱的响应，这使得最终答案难以验证是否由连贯的中间推理支持。

现阶段，强化学习技术已展现出在组织复杂推理链方面的潜力，其中 Group Relative Policy Optimization（GRPO）作为一种高效的策略优化方法，正被广泛探索以提升模型在特定任务上的表现。结合图形结构，本文提出了一种将神经语言生成与符号关系结构深度融合的新范式——图原生强化学习。这为构建可检验、可复用的因果关联提供了新途径，旨在推动材料设计领域的可解释人工智能发展。

核心内容

Graph-PRefLexOR 是一系列基于图形结构的推理模型，其开发旨在解决标准大语言模型在材料设计中因果推理链不清晰的问题。该模型通过 Group Relative Policy Optimization（GRPO）进行微调，将推理过程组织为四个明确阶段：机制探索、图构建、模式提取和假设合成。这种设计有效地将神经语言生成与符号关系结构相连接，从而构建、检查并重用因果关联。

在包含 100 个来自材料科学与力学文献的开放式问题的测试集中，Graph-PRefLexOR 相较于对应的基础模型在推理可追溯性上实现了 40-65% 的显著提升，整体性能也获得相应改善。语义嵌入分析进一步表明，Graph-PRefLexOR 在语义探索范围上更为广泛，且语义多样性约为基线模型的 2-3 倍。语义回溯和逐层隐藏状态分析则揭示了结构化推理与最终答案之间更强的对齐度。

此外，通过测试时图扩展实验发现，额外的计算资源主要增加长程概念重组的次数，而非简单地扩大语义覆盖范围。这些发现为图原生强化学习在科学假设生成中的应用提供了坚实证据。

关键要点

Graph-PRefLexOR 采用 GRPO 微调，将推理严格分为机制探索、图构建、模式提取、假设合成四大阶段，强化神经语言与图形符号结构的融合。
在 100 个材料科学与力学开放式问题上，模型推理可追溯性提升 40-65%，语义多样性增加至基线的 2-3 倍。
语义回溯与层-wise 隐藏状态分析证实，模型的结构化推理与最终答案间对齐度显著增强。
测试时图扩展表明，额外算力优先提升长程概念重组，而非单纯扩展语义边界。
总体技术路线为材料设计等科学领域提供可解释、 traceable 的 AI 假设生成新范式。

意义与影响

该研究提出了一种全新路径，即通过图原生强化学习实现可解释的科学假设生成系统，为材料发现加速提供了切实可行的技术支持。其核心贡献在于将神经生成与符号推理深度融合，形成可检验的因果链条，这对构建更可靠的 AI 系统具有普适意义。未来，该方法有望扩展至其他科学领域，推动人工智能从“黑箱”向“可信”方向的转型，并显著提升材料科学研究的效率与可重复性。

查看原文 →arxiv.org

图原生强化学习让科学假设生成更可追溯

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐