← 返回信息流
AI 资讯Hacker News·3 天前

Biohub发布蛋白质生物学世界模型

原标题:Biohub releases a world model of protein biology

速览

Biohub近日发布了一个蛋白质生物学世界模型。该模型利用人工智能技术,旨在全面模拟和理解蛋白质的复杂结构与动态功能。这一突破有望加速药物研发进程并深化对生命机制的认知。

AI 深度解读

Biohub 发布蛋白质生物学“世界模型”:开启计算驱动的药物设计新纪元

来源:Hacker News / Biohub 官方公告 日期:2026年5月27日 地点:美国加利福尼亚州雷德伍德城

Biohub 今日宣布发布蛋白质生物学领域的“世界模型”(World Model)。这不仅仅是一个预测工具,更是一个用于预测、设计和发现的科学引擎。该模型能够跨越生命之树映射蛋白质、预测其结构,并设计出在实验室实验中真正有效的新型蛋白质结合剂(Protein Binders)。

背景

蛋白质是生命的机器。人体几乎每一项功能都依赖于蛋白质。它们是医学研究中最重要、最具潜力的靶点之一,然而,设计出在体内既能发挥预期功能又具备稳定性的蛋白质,长期以来一直是科学界面临的一项巨大挑战。

传统上,寻找 viable therapeutic candidate(可行的治疗候选分子)是一个漫长且高度经验主义的过程。以基于抗体的疗法为例,这类疗法已成为现代医学的基石,约占美国 FDA 新批准药物的四分之一,涵盖癌症、自身免疫性疾病等领域。然而,确定一个能与疾病靶点紧密结合且特异性强的分子,通常需要三到四年的时间进行临床前开发。

Biohub 认为,解决这一瓶颈的关键在于理解生物学最深层的规律。通过利用跨越数十亿年进化记录的蛋白质序列数据,训练一个能够内化这些物理和生物规则的“世界模型”,从而将初期的搜索过程从漫长的实验筛选转变为计算指导下的快速设计。

核心内容

Biohub 向全球研究人员开放了一个基于三项核心发布的蛋白质结构预测、设计及生物学发现引擎:ESMCESMFold2ESM Atlas

1. ESMC:蛋白质生物学的核心语言模型

ESMC 是该系统的基石,是一个最先进的蛋白质语言模型。其核心科学假设是:如果在所有生命的序列上训练语言模型,模型将内化支配蛋白质生物学的基本属性——即蛋白质折叠、相互作用和功能背后的底层规则。

ESMC 基于从所有生命形式中提取的约 28亿条序列 进行训练。这些序列涵盖了从深层土壤中的细菌、极端环境中的生物体,到人类体内超过2万种类型的蛋白质。其训练目标简单而强大:预测进化所选择的氨基酸。由于进化倾向于保留功能适宜的蛋白质,跨越数十亿年数据中保留的模式隐含了支配蛋白质功能的物理规则。

2. ESMFold2:从序列到原子级结构的转化引擎

ESMFold2 是建立在 ESMC 之上的设计引擎,旨在将 ESMC 的序列表示转化为生物分子复合物的原子级分辨率 3D 结构。

  • 性能突破:在预测蛋白质-蛋白质相互作用以及抗体-抗原相互作用方面,ESMFold2 在标准的蛋白质折叠基准测试中处于领先地位。
  • 实战验证:在一篇预印本论文描述的实验中,研究人员利用 ESMFold2 针对癌症和免疫学中的五个关键靶点设计了蛋白质结合剂。
    • 靶点包括:EGFR 和 PDGFRβ(与肿瘤生长有关)、PD-L1 和 CTLA-4(癌细胞用于逃避检测的免疫检查点)、以及 CD45(免疫细胞信号的调节器)。
    • 效率提升:原本需要数月甚至数年的计算搜索,在几天内即可完成。
    • 实验结果:实验室验证的结合剂表现出高亲和力、高特异性和高稳定性——这些是临床效用至关重要的属性。此外,这些结合剂与公共数据库中的序列相似性极低,表明模型正在生成从头设计(de novo)的解决方案,而非简单检索已知结合剂。
    • 具体成效:对于 PD-L1,设计的结合剂在实验室测试中恢复了 T 细胞信号传导,阻断了获批的免疫检查点疗法所针对的同一通路。

3. ESM Atlas:可导航的生物学数据库

ESM Atlas 使 ESMC 的表示变得可导航,涵盖了 68亿条蛋白质序列11亿个预测结构。这是迄今为止 AI 在蛋白质生物学领域最大规模的应用。

  • 数据组织:它根据模型学习到的关系对蛋白质进行组织,揭示了现有数据库未能捕捉到的联系。
  • 发现新关联:例如,它发现了分布在生命远端分支上的基因编辑酶之间的进化联系。
  • 填补空白:其中大部分生物学信息此前从未被注释过。对于研究生物学机制尚不清楚的疾病的研究人员而言,这使得原本无法表征的生物学变得可搜索。

所有这三项工具均免费向全球科学社区开放,用户可通过 Biohub Platform 访问。

关键要点

  • 范式转变:Biohub 提出的“世界模型”概念表明,通过海量进化数据训练,AI 可以内化蛋白质折叠、相互作用和功能的底层物理规则,从而具备从头设计功能性蛋白质的能力。
  • 速度飞跃:ESMFold2 将早期治疗性结合剂的发现从主要依赖经验筛选转变为计算指导的设计,将初期搜索时间从数月/数年缩短至数小时或数天。
  • 高成功率:在针对癌症和免疫学靶点的实验中,紧凑型微型结合剂(minibinders)的命中率高达 36–88%,抗体衍生格式的命中率为 15–29%,且实验验证结果符合预测。
  • 开源生态:ESMC、ESMFold2 和 ESM Atlas 共同构成了一个最先进的、开源的蛋白质结构预测和设计生态系统。Biohub 联合创始人 Dr. Priscilla Chan 强调,开放科学加速发现,让全球研究人员都能更快地迈向针对个体患者的个性化治愈方案。
  • 数据规模:ESM Atlas 包含 68 亿条序列和 11 亿个预测结构,是目前最大的 AI 蛋白质生物学应用,为研究机制不明的疾病提供了前所未有的搜索能力。

意义与影响

Biohub 此次发布的蛋白质生物学世界模型,标志着生物医学研究进入了一个新的阶段。

首先,它极大地降低了药物发现的门槛和成本。通过 ESMFold2,研究人员不再需要完全依赖耗时的试错法,而是可以通过计算模拟快速生成并验证候选分子。这种从“发现”到“设计”的转变,有望显著加速针对癌症、自身免疫性疾病等复杂疾病的新药研发进程。

其次,ESM Atlas 的开放为基础生物学研究提供了强大的新工具。通过揭示数据库中未被注释的进化联系和生物学功能,它帮助科学家更好地理解那些“黑暗物质”般的未表征生物学,这对于开发针对罕见病或机制不明疾病的治疗手段至关重要。

最后,Biohub 坚持的开源策略体现了其使命:通过理解生物学最深层的规律,并将这些工具提供给每一位科学家,共同推动人类治愈和预防疾病的目标。正如 Biohub 科学负责人 Alex Rives 所言:“我们展示的模型已经学习了如此高保真度的生物学世界模型,以至于你可以计算性地设计蛋白质界面,将其带入实验室,它们就能如预测那样发挥作用。”

查看原文 →biohub.org