技术博客arXiv cs.AI·1 小时前

AI多代理系统自动生成化学反应规则

原标题：Agentic generation of verifiable rules for deterministic, self-expanding reaction classification

速览

该研究提出一个全自动管道，由大型语言模型的多代理框架组成，负责对化学反应进行分类并撰写规则。在665901个美国专利反应数据集上进行验证循环，自动扩展现有分类体系至14073个类别，完全无需人工干预。采用轻量指纹分类器可对未见反应实现97.7%分类准确率，达到顶级商业分类器的精度并实现更细致划分。最终成果是动态更新的反应性数据库，为将生成式模型转化为可靠自扩展的符号系统提供通用路线。

AI 深度解读

背景

计算机辅助合成规划（Computer-assisted synthesis planning）通过将目标分子分解为可获得的先驱分子，来实现对化学合成的精确规划。这一过程依赖于庞大的反应规则库，这些规则为每个转化过程分配一个确定性且可解释的标签。然而，化学反应在长尾分布上具有显著特征，手动编码反应规则变得完全不可行。现有工具通常采用固定规则集，无法对新出现的化学知识进行适应。

核心内容

研究者提出了一套完全自动化的管道，利用多代理框架中的大型语言模型（LLMs）对化学反应进行分类，并自主生成反应规则。该框架在665,901个美国专利反应数据上运行，每个规则都在验证循环中生成：该循环测试规则是否能在整个语料库中准确分类反应。管道从标准的68类分类法扩展至14,073个类别，且无需任何人工干预辅助。实验中还引入了一种轻量级指纹分类器，该分类器在未见反应上的准确率达到97.7%，与领先的专有分类器相当，但分辨能力更细粒度，且能够在训练分布之外的化学知识上进行扩展。

最终产出是一个“活反应性数据库”（living reactivity database），以及一种通用方法：将生成式模型转化为可靠且能够自我扩展的符号系统。

关键要点

采用多代理LLM框架实现反应分类与规则生成的全自动化，无需人工编码。
规则生成过程内置验证循环，确保每条规则在整个665,901个专利反应语料库中可准确分类。
分类体系从68类扩展至14,073类，自动完成，无需人工干预。
轻量级指纹分类器在未见反应上达到97.7%准确率，匹配专有分类器并实现更细粒度分辨。
分类器可扩展至训练分布外的化学知识，支持在线适应。
产出“活反应性数据库”，并提供将生成式模型转化为可靠自扩展符号系统的通用路线。

意义与影响

该方法为化学合成规划领域提供了新的范式：从依赖固定规则集的传统方法，转变为可动态适应新化学知识的自动系统。结果不仅构建了一个不断更新的反应性数据库，还为将生成式AI模型转化为可靠的符号推理系统开辟了道路，具有广泛的应用前景，尤其是在药物发现、材料科学和自动化实验室等领域。

查看原文 →arxiv.org

AI多代理系统自动生成化学反应规则

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐