技术博客arXiv cs.CL·1 小时前

Pepti-Agent：基于AI代理的肽设计与优化框架

原标题：Pepti-Agent: An AI Agent for Peptide Design and Optimization

速览

Pepti-Agent是一个闭环肽专用框架，通过暴露生成、预测和突变等独立工具，实现肽设计的可追溯优化。该框架利用大语言模型控制器协调各组件，依据实时属性数据而非仅靠语言推理来精炼序列。它为多目标设计策略的基准测试及候选分子实验验证提供了可复现的基础。

AI 深度解读

Pepti-Agent：基于 AI Agent 的肽段设计与优化框架深度解读

背景

治疗性肽（Therapeutic Peptides）在药物开发领域占据着独特的生态位，它们处于小分子药物与生物大分子药物之间的“黄金设计空间”。然而，肽段的开发过程极其复杂，需要同时满足多个相互竞争且往往相互制约的约束条件。

具体而言，肽段的溶解度（solubility）、溶血活性（hemolytic activity）以及非特异性表面污染（nonspecific surface fouling）等关键性质，往往由重叠的序列特征所决定。这意味着，改善某一特定性质（如提高溶解度）通常会导致其他性质（如增加溶血风险）的恶化。这种多目标优化的困境使得传统的手动设计或单一维度的优化方法难以奏效。

尽管计算设计通过结合生成模型与基于序列的性质预测器，能够迭代地提出并优化候选肽段，但现有的计算工作流存在显著缺陷：

黑盒化与僵化：现有的组件通常被打包成单体脚本（monolithic scripts），难以进行审查、扩展或复用。
推理逻辑的局限性：许多系统依赖自然语言推理来精炼序列，而非追踪每个候选肽段在多性质状态下的动态变化。这种基于语言的推理往往缺乏对生化物理状态的精确量化反馈。

核心内容

为了解决上述问题，研究人员提出了 Pepti-Agent，这是一个专为肽段设计打造的闭环 AI Agent 框架。该框架的核心创新在于将生成、性质预测和单残基突变等步骤解耦，并通过 Model Context Protocol (MCP) 暴露为可独立检查的工具。

1. 架构设计：MCP 工具化与 LLM 控制器

Pepti-Agent 采用了一种模块化的架构，其核心是一个大型语言模型（LLM）控制器。该控制器并不直接生成最终序列，而是作为“大脑”调用一系列独立的 MCP 工具：

生成工具：负责提出初始候选肽段。
预测工具：实时评估候选肽段的各项性质。
突变工具：对序列进行单残基编辑。

与传统方法不同，LLM 控制器在每次调用工具后，都会查阅实时的预测器输出。这意味着序列的优化过程是由每个候选肽段当前的“性质画像”（property profile）驱动的，而不是仅靠 LLM 的语言逻辑进行模糊推理。

2. 具体组件与技术栈

候选生成：任务特定的 PeptideGPT 模型负责生成初始的肽段候选者。
性质预测与评分：
- 基于 ProtBERT 的分类器用于评估三个关键指标：溶解度、溶血活性和非污染性。
- 这些预测器提供了量化的反馈信号，指导后续的优化方向。
序列编辑：系统内置了两个可互换的突变算子（mutation operators），用于提出序列编辑建议。

3. 可解释性与可复现性

Pepti-Agent 的一个关键特性是其透明度。系统记录了每一步的完整追踪数据（trace），包括：

控制器的决策逻辑。
预测器的实时输出结果。
被接受的突变操作。

这种记录机制使得整个优化过程成为可审查、可复现的。它不仅为基准测试多目标设计策略提供了可靠的底物，还帮助研究人员优先选择那些经过严格多性质验证的候选者进行实验验证。

关键要点

解决多目标冲突：Pepti-Agent 专门针对肽段设计中溶解度、溶血性和表面污染等相互制约的性质进行优化，通过量化反馈而非单一语言推理来平衡这些冲突。
模块化与 MCP 协议：通过 Model Context Protocol (MCP) 将生成、预测和突变功能封装为独立工具，解决了传统单体脚本难以扩展和复用的问题。
LLM 作为控制器而非生成器：大型语言模型在此框架中扮演协调者角色，依据实时性质数据做出决策，而非直接生成序列，从而提高了优化的精准度。
基于 ProtBERT 的预测：利用预训练的 ProtBERT 模型对关键生化性质进行高精度评分，为优化提供坚实的数据支撑。
全流程可追溯：记录每一步的决策、预测和突变细节，确保了实验的可复现性，并为后续的多目标策略基准测试提供了数据基础。

意义与影响

Pepti-Agent 的提出标志着计算药物设计从“黑盒生成”向“透明化、可解释的 Agent 驱动优化”迈出了重要一步。

提升研发效率：通过自动化且可解释的迭代优化，研究人员可以更快速地筛选出具有理想性质组合的肽段候选者，减少湿实验的试错成本。
增强可复现性：在 AI 辅助药物发现领域，结果的可复现性一直是一个挑战。Pepti-Agent 提供的详细追踪记录为同行验证和基准测试提供了标准范式。
推动 AI Agent 在科学领域的应用：该框架展示了如何将 LLM 与特定的科学计算工具（如蛋白质语言模型）结合，通过 MCP 协议实现灵活的工具调用。这种模式可推广至其他复杂的科学发现领域，如小分子药物设计或蛋白质工程。
** bridging the gap between computation and experiment**：通过优先推荐经过严格多性质验证的候选者，Pepti-Agent 有助于缩小计算预测与实验验证之间的差距，加速治疗性肽从设计到临床应用的进程。

查看原文 →arxiv.org