技术博客arXiv cs.AI·1 天前

TxBench-PP评估AI小分子药理决策能力，最强模型仅过59%

原标题：TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology

速览

研究人员推出TxBench-PP基准，旨在评估AI智能体在真实小分子临床前药理数据中的推理能力。测试涵盖100个评估案例，涉及机制、药效及安全性等复杂任务。结果显示，包括Claude Opus 4.8和GPT-5.5在内的11个模型均未能可靠完成决策，最强配置通过率仅为59.3%。

AI 深度解读

TxBench-PP：AI Agent 在小分子临床前药理学中的性能评估

背景

人工智能（AI）智能体（Agents）在药物发现领域的应用前景广阔，其核心承诺是通过压缩“解读”与“决策”的循环，显著加速新药研发进程。然而，要将这一愿景转化为现实，关键在于建立可信的评估体系。目前的挑战在于，如何验证 AI 智能体在面对真实的程序化决策时，是否具备处理复杂、非结构化数据的能力，而不仅仅是检索和复述文献中已知的静态事实。

为了应对这一挑战，研究人员引入了 TherapeuticsBench Preclinical Pharmacology (TxBench-PP)。这是更广泛的 TherapeuticsBench 项目的首个聚焦切片，该项目旨在覆盖药物发现的各个阶段及多种治疗模式。TxBench-PP 专门针对小分子临床前药理学领域，旨在测试 AI 智能体能否从真实的实验数据中推导出准确的结论，而非依赖对文献事实的记忆。

核心内容

TxBench-PP 是一个可验证的基准测试（Benchmark），其设计初衷是模拟真实的药物研发工作流，以评估 AI 智能体在临床前药理学任务中的实际表现。

1. 基准测试架构与范围 该基准测试包含 100 个评估案例，这些案例根据以下维度进行索引：

项目阶段：涵盖药物研发的早期阶段。
检测类型：针对不同的实验数据形式。
任务结构：定义问题的复杂度和逻辑链条。

评估内容涵盖了临床前药理学的多个关键领域，包括：

作用机制（MoA）与药效动力学（PD）推理：理解药物如何起作用及其效应随时间的变化。
化合物-靶点结合（Compound-target engagement）：分析药物分子与生物靶点的相互作用。
因果靶点验证（Causal target validation）：确认靶点与疾病之间的因果关系。
可开发性与安全性（Developability and safety）：评估药物的物理化学性质及潜在毒性。
转化疗效（Translational efficacy）：从临床前数据向临床预期效果的转化能力。

2. 评估方法论 TxBench-PP 采用了一种高度仿真的评估环境：

真实工作流快照：智能体接收到的不是简化的问题描述，而是真实世界的工作流快照。
编码环境交互：智能体需要在编码环境中检查文件（如数据文件、代码脚本等），模拟研究人员处理原始数据的过程。
结构化输出与确定性评分：智能体需返回结构化的答案，评分过程是确定性的（deterministic），确保了评估结果的可复现性和客观性。

3. 实验结果与模型表现 研究团队在 16 种模型配置（Harness configurations）下进行了测试，涉及 11 个不同的模型，共生成了 4,800 条轨迹（trajectories）。核心发现是：没有任何一个系统能够可靠地恢复临床前药理学决策。 这表明当前的 AI 智能体在处理复杂的、基于真实实验数据的药理推理任务时，仍存在显著的能力缺口。

具体性能数据如下：

最佳表现：配置为 Claude Opus 4.8 / Pi 的系统表现最强，在 300 次终点尝试中通过了 59.3%（178/300；95% 置信区间为 51.1-67.6）。
次佳表现：配置为 GPT-5.5 / Pi 的系统紧随其后，通过率为 55.3%（166/300；95% 置信区间为 47.0-63.6）。

值得注意的是，即使是表现最好的模型，其通过率也未超过 60%，且置信区间较宽，显示出模型在特定任务上的不稳定性。

关键要点

从“记忆”到“推理”的范式转变：TxBench-PP 的核心价值在于它测试的是 AI 从真实实验数据中推导结论的能力，而非检索已知文献事实。这标志着药物发现 AI 评估从知识检索向复杂逻辑推理的演进。
真实世界的数据复杂性：通过引入编码环境和真实工作流快照，该基准测试捕捉了药物研发中数据处理、文件检查和多步骤推理的真实复杂性，比传统的问答式基准更具挑战性。
当前 AI 能力的局限性：实验结果表明，尽管大型语言模型（LLM）在通用任务上表现优异，但在需要严谨科学推理的临床前药理学领域，现有模型（包括 Claude Opus 和 GPT-5.5 等顶尖模型）仍无法可靠地完成任务，最佳通过率不足 60%。
标准化的评估框架：TxBench-PP 提供了基于项目阶段、检测类型和任务结构的索引体系，为后续研究提供了可复现、可比较的评估标准，是 TherapeuticsBench 项目的重要起点。
置信区间的警示：模型性能的高置信区间（如 51.1-67.6%）暗示了模型输出的不稳定性，这对于要求高可靠性的药物研发场景来说是一个重大风险信号。

意义与影响

TxBench-PP 的发布对 AI 辅助药物发现领域具有深远的影响：

确立了新的评估基准：它填补了临床前药理学领域缺乏标准化、可验证基准的空白。通过强调“可验证性”和“真实数据”，它为衡量 AI 智能体在科学推理方面的进步提供了更严格的标准。
揭示了当前技术的瓶颈：研究结果明确指出了当前主流 AI 模型在复杂科学推理任务上的不足。这提醒行业参与者，AI 目前尚不能完全替代人类专家在关键决策环节的作用，特别是在需要处理噪声数据、进行因果推断和安全性评估时。
指导模型优化方向：低通过率和广泛的不稳定性表明，未来的模型优化需要专注于提高在特定科学领域（如 MoA、PD 推理）的鲁棒性和准确性，而不仅仅是提升通用语言理解能力。
推动可信 AI 部署：在药物发现这种高风险领域，可信评估是部署 AI 的前提。TxBench-PP 证明了在将 AI 引入实际工作流之前，必须通过此类严格的基准测试来量化其风险和局限性，从而促进更安全、更负责任的 AI 应用。

总之，TxBench-PP 不仅是一个测试工具，更是一个行业信号：AI 在药物发现中的角色正从“信息助手”向“推理伙伴”转变，但这一转变仍需克服巨大的技术挑战。

查看原文 →arxiv.org