技术博客arXiv cs.AI·7 天前

MolLingo：面向大语言模型驱动科学代理的分子原生表示

原标题：MolLingo: Molecule-Native Representations for LLM-Powered Scientific Agents

速览

MolLingo是一个多智能体系统，通过文献、化学家和协调员智能体的协作，模拟化学家的推理过程以自动化分子设计。该系统引入基于BRICS的片段枚举方法，将分子分解为具有化学意义的构建块，有效弥合了分子结构与LLM语义空间之间的鸿沟。在早期治疗性分子设计中，系统结合分子对接数据优化分子结构，在多项基准测试中显著优于前沿大模型。

AI 深度解读

MolLingo：面向大模型驱动科学代理的分子原生表示法

背景

随着大语言模型（LLM）在科学发现领域的渗透，利用 AI 自动化分子设计已成为研究热点。然而，现有的基于 LLM 的方法存在明显的局限性：它们通常作为独立的生成模型运行，缺乏对外部工具（如化学数据库、模拟软件）的访问权限；或者，即便具备工具调用能力，也往往缺乏多智能体（Multi-Agent）之间的协调机制以及共享记忆模块，导致难以在复杂的分子设计流水线中进行迭代式的、基于证据的推理。

化学家在进行分子设计时，并非简单地“生成”一个分子，而是通过查阅文献、结合靶点结构信息、分析分子片段并不断迭代优化来完成任务。现有的 AI 方法未能有效模拟这一复杂的认知过程。为了解决这一痛点，研究人员提出了 MolLingo，这是一个多智能体系统，旨在通过模拟化学家的推理过程，实现分子设计的自动化。

核心内容

MolLingo 的核心创新在于其架构设计以及一种名为“基于 BRICS 的片段枚举”（BRICS-based Fragment Enumeration, BFE）的新型分子表示法。

1. 多智能体协同架构

MolLingo 构建了一个由三个核心智能体组成的协作系统，并通过共享记忆模块进行协调：

文献智能体（Literature Agent）：负责检索和分析相关科学文献，为设计提供背景知识和先验知识。
化学家智能体（Chemist Agent）：系统的核心推理单元，负责具体的分子结构修改和优化。
协调者智能体（Orchestrator）：负责统筹全局，调度其他智能体的工作，并管理共享记忆。

每个智能体都配备了特定领域的工具，使其能够执行诸如文献检索、分子模拟等具体任务。

2. 分子原生表示法：BFE

为了实现有效的分子推理，MolLingo 引入了 BRICS-based Fragment Enumeration (BFE)。这是一种对合成过程感知的分子碎片化方法。

传统痛点：原始的 SMILES 字符串对于 LLM 来说语义稀疏，难以进行块级别（block-level）的推理和编辑。
BFE 方案：该方法将分子分解为具有化学意义的构建模块（building blocks）。这些模块被表示为“基于块的 SMILES”（block-based SMILES），并附带常见的化学名称。
优势：这种表示法在分子结构与 LLM 的语义空间之间架起了桥梁，使得模型能够像化学家一样，基于具体的化学基团和名称进行推理和编辑，而非仅仅操作抽象的字符序列。

3. 结合生物结构上下文的优化

在早期治疗药物设计案例中，MolLingo 进一步增强了化学家智能体的推理能力。系统利用分子对接（molecular docking）技术，将结合位点的几何结构和残基水平的蛋白质上下文信息引入推理过程。这使得分子优化不仅仅基于通用的化学性质，而是针对特定的靶点结合亲和力进行定向优化。

4. 性能表现

在四个基准测试中，MolLingo 展现出了卓越的性能：

超越前沿模型： consistently 优于前沿 LLM 和专门的基线模型。
对接分数提升：尽管使用相同的底层模型，MolLingo 的对接分数（docking score）比 GPT-5.4 高出四倍，显示出其在优化分子与靶点结合能力上的巨大优势。
鲁棒性：在多种 LLM 后端上均表现出一致的药物属性优化增益。
SOTA 结果：在 TOMG-Bench 基准测试中取得了最先进（State-of-the-Art）的结果，超越了包括基于强化学习（RL）的优化方法 RePO 在内的多种方法。

关键要点

模拟人类认知：MolLingo 不仅仅是一个生成器，它是一个模拟化学家推理过程的多智能体系统，强调了迭代式和基于证据的决策。
BFE 表示法创新：通过引入基于 BRICS 的片段枚举，将分子分解为带有化学名称的块状 SMILES，解决了原始 SMILES 语义缺失的问题，实现了块级别的推理与编辑。
多智能体协作：通过文献智能体、化学家智能体和协调者智能体的分工与共享记忆机制，解决了单一模型缺乏外部工具访问和多步骤协调的问题。
结构生物学结合：在药物设计场景中，系统整合了分子对接产生的结合位点几何和蛋白质残基上下文，使优化更具生物学意义。
显著的性能优势：在对接分数上比 GPT-5.4 提升四倍，并在 TOMG-Bench 上超越包括 RL 方法在内的 SOTA 基线，证明了 LLM 在化学意义表示和结构上下文引导下的巨大潜力。

意义与影响

MolLingo 的研究结果表明，大语言模型在具备化学意义的表示方法和基于生物结构的上下文引导时，已经能够胜任分子设计助手的工作。这一突破具有多重深远影响：

加速药物发现流程：通过自动化复杂的迭代推理过程，MolLingo 有望大幅缩短早期药物设计的周期，降低研发成本。
弥合 AI 与化学语义鸿沟：BFE 表示法的提出，为 NLP 技术与化学结构数据之间的语义对齐提供了新的范式，使得 LLM 能够真正“理解”分子结构，而不仅仅是处理字符串。
多智能体范式的验证：证明了在科学代理（Scientific Agents）中，多智能体协作和共享记忆机制对于处理复杂、长周期的科学任务至关重要。
可解释性与可控性：相比于黑盒式的生成模型，基于片段和化学名称的推理过程更具可解释性，有助于研究人员理解和验证 AI 的设计逻辑，从而增强对 AI 辅助设计的信任。

总之，MolLingo 不仅是一个性能优越的工具，更代表了一种将领域知识深度融入大模型推理过程的新思路，为 AI 驱动的科学发现开辟了新的路径。

查看原文 →arxiv.org