技术博客OpenAI Blog·1 天前

GPT-Rosalind新增生物推理与药物化学等核心能力

原标题：Introducing new capabilities to GPT-Rosalind

速览

GPT-Rosalind近期推出新功能，旨在加速生命科学领域的研究进程。此次升级显著增强了模型在生物推理、药物化学专业知识、基因组学分析以及实验工作流方面的处理能力。这些改进将帮助研究人员更高效地解决复杂的科学问题。

AI 深度解读

GPT-Rosalind 能力升级：为生命科学行业注入基于真实工作流的智能

背景

随着生命科学研究的深入，该领域正面临着从分子、基因、通路到整个生命系统等多尺度、多模态数据的整合挑战。传统的模型评估往往孤立地考察单一组件或特定生物领域，难以反映科学家在实际科研中处理复杂、端到端工作流的能力。

为了应对这一挑战，OpenAI 推出了专为生命科学企业级研究打造的 GPT-Rosalind 系列模型的最新更新。此次更新旨在将更强的模型智能与真实的科学工作流相结合，特别是在药物发现、药物化学和基因组学等核心领域。与此同时，OpenAI 还发布了 LifeSciBench，这是一个由外部专家评判的生命科学基准测试，旨在从证据处理、分析、设计优化、科学推理、验证操作以及转化沟通等六个核心工作流环节，全面评估模型在真实科研场景中的表现。

核心内容

1. 模型能力升级：结合 GPT-5.5 与领域智能

此次更新的 GPT-Rosalind 融合了 GPT-5.5 的智能体编码（agentic coding）和工具使用能力，并在药物化学和基因组学等核心药物发现领域增强了模型智能。评估显示，该模型在生物学专家的研究任务、复杂的药物化学查询、定量生物学分析以及湿实验故障排除等方面均取得了广泛性能提升。

2. 全新基准测试：LifeSciBench

为了衡量并持续改进 GPT-Rosalind 在现实世界中的影响，OpenAI 设计了 LifeSciBench。与仅评估模型性能单一组成部分或孤立生物领域的现有基准不同，LifeSciBench 采取端到端的视角，涵盖以下六个生命科学研究的中心工作流领域：

证据处理（Evidence handling）
分析（Analysis）
设计与优化（Design and optimization）
科学推理（Scientific reasoning）
验证与操作（Validation and operations）
转化与沟通（Translation and communication）

案例演示： 在评估中，模型被要求对一份关于 AAV9-microDys-X（一种用于杜氏肌营养不良症的基于 AAV9 的微肌营养不良蛋白基因疗法）的 FDA Type B 会议资料进行严厉批判。该疗法旨在通过 MCK 启动子表达 138 kDa 的构建体。

输入数据：包括治疗前后的生物活检数据（Western blot 定量）、免疫荧光结果、48 周的功能性指标（NSAA 评分变化）、安全性数据（转氨酶升高、心肌炎）以及生物分布数据。
模型输出：GPT-Rosalind 指出，当前证据不足以支持以微肌营养不良蛋白表达作为预测临床益处的替代终点从而获得加速批准。它识别出了关键缺口，包括检测特异性、量化标准无效、可能存在的回复性纤维混淆、缺乏随机对照、年龄相关的 NSAA 混淆因素、耐久性不确定以及未解决的安全性和普遍性问题。
改进建议：模型建议需要设计受控的、按年龄分层的临床试验，使用转基因特异性表达检测、正交蛋白定量、组织成分对照、纵向耐久性数据、截短构建体的机制功能检测以及更严格的安全性监测（特别是肝脏和心脏）。

3. 专项基准测试成绩

MedChemBench（药物化学基准）：专注于将分子转化为有用药物的领域。评估涵盖多模态化学结构理解、构效关系（SAR）、药物效力/毒性/ADME 预测、多参数先导化合物优化决策及逆合成分析。
- 成绩：GPT-Rosalind 得分 27.5%，优于 GPT-5.5 的 25.1%，且消耗令牌数减少 7.2%。
GeneBench（基因组学与定量生物学基准）：评估长周期、端到端的智能体分析能力。基于真实科学数据，测试智能体是否能规划有效的分析、质量控制、建模和校正以得出决策相关答案。涵盖功能基因组学、空间转录组学、蛋白质组学、表观基因组学和应用遗传学。
- 成绩：GPT-Rosalind 准确率 21.6%，优于 GPT-5.5 的 20.4%，且消耗令牌数减少 31%。
LabWorkBench（湿实验工作流基准）：测试模型将扰动与实际湿实验协议中的实验结果联系起来的能力，用于故障排除和优化。数据为专有且未受污染。
- 成绩：GPT-Rosalind 得分 63.2%，优于 GPT-5.5 的 55.8%，且消耗令牌数减少 5.3%。

4. 插件与交互体验增强

新插件发布：推出了 Life Sciences Research 和 Life Sciences NGS Analysis 插件。这些插件将来源证据检索、生物解释和生物信息学执行整合到同一工作区，帮助研究人员将外部证据与内部组学分析联系起来，同时保留工件和溯源信息。所有用户可通过 Codex 访问，合格的 GPT-Rosalind 企业用户可使用该模型驱动这些插件。
交互式查看器：为了将 Codex 打造为科学家的动态工作台，新增了针对生物原生文件类型的交互式查看器。初始版本包括序列、比对和结构查看器，旨在让科学家在 GPT-Rosalind 进行工作流推理时能紧密贴近证据，并直接在上下文中使用活动查看器回答后续问题。

5. 访问权限

GPT-Rosalind 系列现已通过可信访问部署结构（trusted-access deployment structure），向全球符合条件的组织提供研究预览版。这些组织需开展具有明确公共利益的合法科学研究。

关键要点

领域专用智能：GPT-Rosalind 并非通用模型的简单微调，而是专门针对生命科学研发流程（从药物化学到湿实验）进行了深度优化，特别是在处理多模态数据和复杂推理任务上表现突出。
效率显著提升：在 MedChemBench、GeneBench 和 LabWorkBench 三大基准测试中，GPT-Rosalind 不仅在准确率或得分上全面超越 GPT-5.5，而且在计算资源消耗（令牌使用量）上均实现了 5%-31% 的降低，显示出更高的能效比。
端到端工作流评估：通过 LifeSciBench，OpenAI 强调了从证据收集到科学沟通的全链路评估，而非孤立的技术指标，这更贴近真实科研场景的需求。
工具链整合：通过 Codex 平台集成 Life Sciences Research 和 NGS Analysis 插件，以及新增的生物原生文件查看器，OpenAI 正在构建一个闭环的科研辅助生态系统，使科学家能够在同一界面完成从数据检索、分析到可视化的全过程。
严格的准入机制：GPT-Rosalind 目前仅面向通过可信访问部署结构的企业级用户提供研究预览，确保技术应用于具有明确公共利益的科学研究中。

意义与影响

此次更新标志着大型语言模型在垂直领域应用上的重大进展。GPT-Rosalind 不再仅仅是一个文本生成工具，而是逐渐演变为具备“智能体”属性的科研助手，能够深入参与药物发现、基因组分析等高风险、高专业度的工作流。

加速药物研发周期：通过在药物化学和湿实验故障排除上的卓越表现，GPT-Rosalind 有望帮助制药公司缩短先导化合物优化和实验调试的时间，降低研发成本。
提升科研严谨性：LifeSciBench 和 MedChemBench 等基准测试的建立，为衡量 AI 在科学领域的实际价值提供了更客观的标准，有助于行业建立对 AI 辅助科研的信任。
推动 AI 原生科研范式：通过 Codex 和专用插件的整合，OpenAI 正在推动一种新的科研范式，即科学家与 AI 模型在同一工作空间内协作，实时验证假设、解读数据，从而打破数据孤岛，提高科研效率。
企业级安全与合规：通过可信访问部署结构，OpenAI 强调了在生命科学这一敏感领域中对数据安全和合规性的重视，为 AI 技术在医疗

查看原文 →openai.com