技术博客OpenAI Blog·23 小时前

推出LifeSciBench：专家构建的AI生命科学基准测试

原标题：Introducing LifeSciBench

速览

LifeSciBench是一个由专家编写并经过专家审核的基准测试集，旨在评估人工智能系统在真实世界生命科学研究和决策任务中的表现。该基准测试专注于衡量AI处理复杂科学问题的能力，为AI在生物医学领域的应用提供了重要的评估标准。

AI 深度解读

深度解读 LifeSciBench：基于真实科研场景的专家级基准测试

背景

随着 Agentic AI（智能体 AI）系统在科学任务执行能力上的日益增强，其在生命科学领域的潜在价值备受关注。然而，AI 对生命科学研究人员真正有用与否，取决于其处理真实研究复杂性的能力。

现实中的科学研究极少表现为单一的事实回忆问题或干净利落的数据预测问题。研究人员需要解读不完整的证据、调和相互矛盾的结果、设计高难度的实验、排查检测故障、评估转化风险，并在不确定性中决定下一步行动。

现有的基准测试（Benchmarks）未能充分捕捉这些能力。许多生命科学评估往往局限于狭窄的领域或孤立技能，导致问题具有结构化的格式和清晰的标准答案。虽然这些评估具有一定价值，但它们通常无法真正衡量模型是否具备在更广泛的科研层面做出贡献的能力。

为了填补这一空白，OpenAI 推出了 LifeSciBench。这是一个由专家撰写、专家评审的基准测试，其所有任务均扎根于真实的生命科学研究判断力。

核心内容

LifeSciBench 旨在评估 AI 系统是否支持真实的生命科学研究任务，而不仅仅是回答生物学知识问题。以下是该基准测试的核心构成与设计逻辑：

1. 数据规模与专家参与

LifeSciBench 包含 750 个专家撰写的任务，涵盖 7 个工作流和 7 个生物学科领域。其构建过程高度依赖专家介入：

173 名科学家贡献者：均拥有博士级培训背景，并在生物技术或制药行业拥有直接推进药物发现项目的经验。
453 名专家评审员：负责审核任务质量。
1,062 个任务附属文件（Artifacts）：包括图表、PDF、表格、序列文件、结构或化学文件以及网络引用。
19,020 个评分标准（Rubric Criteria）：用于精细化评估模型输出。

2. 任务分类与结构

通过调查实践中的生命科学科学家，OpenAI 将常用工作流归纳为七大类别：

证据处理（Evidence handling）
分析（Analysis）
设计与优化（Design and optimization）
科学推理（Scientific reasoning）
验证与运营（Validation and operations）
转化（Translation）
科学交流（Scientific communication）

每个任务的结构模拟了科学家向知识渊博的合作者提出的请求，包含：

科学提示（Scientific prompt）
相关上下文或附属文件
自由回答（Free-response answer）

3. 复杂性与现实感

LifeSciBench 的设计旨在反映生命科学工作的复杂性：

多步推理：79% 的任务需要多个推理或决策步骤，平均每任务包含 4 个步骤。
多模态输入：超过半数（53%）的任务要求模型解读或综合至少一个附属文件的信息。许多任务要求模型处理不确定性，并基于支持性数据文件进行推理，而非仅依赖提示文本。
不确定性处理：任务要求模型做出基于领域的判断，并沟通对专家评审员有用的结论。

4. 严格的审核与评分机制

审核流程：任务在通过前需经过尽可能多的修订周期。接受的任务平均经过 6 轮自我导向的自动化审查，并完成至少 2 轮专家评审。评审基于可验证的正确答案或强大的专家共识（相关领域评审员同意率至少为 90%）。
细粒度评分标准（Rubrics）：LifeSciBench 不使用简单的对错判断，而是使用任务特定的详细评分标准，将预期响应分解为具体的科学主张、计算、决策、理由等。平均每个任务有 25 个评分标准。
评估维度：不仅评估最终答案的准确性，还评估模型得出答案的过程是否具有科学有效性和操作实用性。例如，即使最终结论正确，若忽略了关键的检测局限性或未主动提出重要的生物学细微差别，仍会被判定为不完整。

5. 示例解析

文章提供了一个典型的评估示例，展示了 LifeSciBench 对复杂监管科学问题的处理能力：

场景：准备关于 AAV9-microDys-X（一种用于杜氏肌营养不良症的 AAV9 微肌营养不良蛋白基因疗法）的 Type B FDA 会议。目标是严格评估当前数据包是否支持以微肌营养不良蛋白表达作为“可能预测临床益处的替代终点”来获得加速批准。
输入数据：包括开放标签 1b/2 期临床试验数据、Western blot 定量结果、免疫荧光信号、NSAA 功能评分变化、安全性数据（转氨酶升高、心肌炎）、生物分布数据等。
任务要求：逐项压力测试数据包，指出 FDA 或持怀疑态度的评审员会认为证据不足的环节，并提出填补这些差距所需的数据、分析或设计变更。
模型预期输出：
- 核心结论：当前数据包不足以支持加速批准。
- 监管结论：虽然显示了生物活性，但未确立微肌营养不良蛋白表达是可靠的替代终点。
- 具体差距：检测特异性、无效的定量标准、可能的回复性纤维混淆、缺乏随机对照、年龄相关的 NSAA 混淆因素、耐久性不确定、未解决的安全性和普遍性问题。
- 改进建议：需要受控的、按年龄分层的临床设计等。

关键要点

填补能力评估空白：现有基准测试过于关注结构化问题和孤立技能，LifeSciBench 专注于评估模型在真实、复杂、非结构化科研环境中的表现。
专家驱动的质量控制：所有任务均由拥有博士学历和行业经验的科学家撰写，并经过多轮自动化和人工专家评审，确保科学严谨性和实用性。
强调过程而非仅结果：通过包含 19,020 个细粒度评分标准，LifeSciBench 评估模型的科学推理过程、细节把握、局限性识别及沟通方式，而不仅仅是最终答案的对错。
真实世界的数据整合：超过一半的任务要求模型处理图表、PDF、序列文件等多模态附属文件，模拟真实研究中信息分散且需综合判断的场景。
多步骤复杂推理：绝大多数任务（79%）涉及多步推理，平均每个任务 4 步，考验模型在不确定性下的决策和逻辑链条构建能力。
七大核心工作流：覆盖了从证据处理、分析、设计优化到科学交流的全科研链条，全面评估 AI 在药物发现和生物研究中的辅助潜力。

意义与影响

LifeSciBench 的推出标志着 AI 在科学领域评估标准的一次重要升级。它不再将 AI 视为简单的问答机器或数据预测工具，而是将其定位为能够参与复杂科研决策的“协作伙伴”。

对于生命科学领域而言，这一基准测试揭示了当前 AI 模型在应对真实科研挑战时的短板，如处理不确定性、解读复杂实验数据以及识别潜在的科学局限性。它促使开发者关注模型在科学推理深度、操作实用性和沟通清晰度上的提升。

对于 AI 研究者来说，LifeSciBench 提供了一个高难度的挑战，推动了 Agentic AI 从“知识检索”向“科学推理与问题解决”的演进。随着模型在此类基准上表现的提升，AI 有望更深入地融入药物发现和生物研究的核心流程，加速科学发现的进程，但同时也对 AI 系统的可靠性、可解释性和安全性提出了更高的要求。

查看原文 →openai.com