AI 资讯Hacker News·1 天前

Nature's Protein Folds: The Unreasonable Redundancy

原标题：The Unreasonable Redundancy of Nature's Protein Folds

速览

Nature's protein folds show a high degree of redundancy, which is crucial for understanding protein evolution and design. This redundancy provides a robust framework for exploring the functional diversity of proteins. The study highlights the importance of this redundancy in advancing our knowledge of biological systems.

AI 深度解读

自然界蛋白质折叠的“不合理”冗余性

背景

近年来，深度神经网络在生成式语言建模领域取得了巨大突破，催生了大语言模型（LLM）。与此同时，图像和视频等连续模态的生成能力也实现了类似的飞跃。最近，类似的技术被应用于生物分子的生成式建模，并取得了显著成功。

DeepMind 的 AlphaFold3 使得预测生物分子相互作用（包括药物-蛋白质和抗体-蛋白质复合物）变得更加容易。随后，人们很快发现如何将这些能力重新用于设计类药物分子。Chai-2、Latent-X2 和 Nabla 等模型均报告了可开发的抗体或生物制剂设计成果。在不久的将来，我们可能会看到大多数进入临床的抗体主要由基于深度学习的生成模型设计，这些抗体可能具有更优越的药物特性，并能靶向那些通过传统湿实验方法难以触及的受体。

那么，如何改进这些系统？我们显然需要更精准的生物分子建模，以便将更好的药物推向临床。从宏观层面来看，改进深度学习系统的配方出奇地简单：扩展模型规模、扩展算力、扩展数据。LLM 的进步显然得益于激进的规模扩展。AlphaFold3 也是一次重大的模型和数据规模扩展努力；它在一个广泛的已知生物分子复合物集合上进行训练，范围从实验结构、蛋白质-配体复合物，到由基因组学和宏基因组学产生的庞大序列数据库（如 MGnify）。DeepMind 内部曾一度将该项目称为 “all-PDB”，意指蛋白质数据库（Protein Data Bank）中代表的所有相互作用。

AlphaFold3 扩展配方中的关键一步是将“序列规模”转化为“结构规模”：利用结构预测将庞大的蛋白质序列数据库转换为预测的 3D 结构。基因组学和宏基因组学为我们提供了数十亿条蛋白质序列，其中许多是从从未在实验室中培养过的生物体收集的环境 DNA 中推断出来的。然而，对于训练基于结构的设计模型而言，有用的对象往往是 3D 结构。结构预测模型使我们能够将部分序列规模转化为结构数据：获取数百万条天然序列，预测它们采用的折叠方式，并将这些预测的结构作为下一代生物分子模型的训练样本。

在 Ligo（一家专注于酶设计的公司），我们关注这一配方，因为我们训练生成模型来设计酶。当我们试图通过折叠更多天然序列来扩展结构训练数据时，我们遇到了一个问题：天然蛋白质序列虽然浩瀚，但其折叠方式的冗余度远高于序列数量所暗示的程度。这篇文章探讨的就是这种不匹配现象，以及为什么仅仅折叠更多天然序列可能无法带来我们预期的新结构多样性。我们将描述用于聚类已知蛋白质宇宙的数据工程技巧，以及我们的结果对如何思考酶设计问题的启示。

核心内容

现代生物分子模型依赖序列规模

现代结构预测模型严重依赖多重序列比对（Multiple Sequence Alignment, MSA）。MSA 将来自不同生物体的相关蛋白质版本排列对齐。当比对中的两个位置倾向于一起变化时，这种协同进化（Coevolution）意味着在相关蛋白质中，两个位置以协调的方式发生变化。例如，如果一个位置通常带负电荷并接触一个带正电荷的位置，进化可能会同时翻转这两个位置，同时避免产生相互排斥的组合。这表明相应的残基在 3D 空间中彼此接近或由功能联系在一起。

我对 AlphaFold2 的心理模型是：它利用这种协同进化信号来约束蛋白质的粗略几何形状，然后学习填充结构的其余部分。

AlphaFold3 似乎在做更广泛的事情。其抗体-抗原性能特别有趣，因为这里没有 MSA 可以提取线索。抗体及其靶标没有共同的进化历史。为了在此类任务中表现出色，模型必须学习关于蛋白质表面本身的知识：哪些形状、化学性质和局部几何形状可能彼此兼容。这与蛋白质家族内部残基的协同进化信号不同。

这正是 MGnify 规模的数据可能发挥作用的地方。宏基因组序列资源使模型接触到数量庞大的天然变异体，其中许多来自我们从未培养过的生物体。经验线索表明，使用 MGnify 规模蛋白质蒸馏训练的模型在抗体-抗原预测上分离得最清楚，因为直接协同进化无法解释那里的相互作用信号（补充信息）。这种对序列空间的覆盖增加看起来很有价值。问题是，它是否也带来了 comparable 的蛋白质折叠多样性。

序列多样性不等于折叠多样性

理论上的蛋白质序列空间大得荒谬：长度为 N 的蛋白质有 $20^N$ 种可能的氨基酸序列。天然蛋白质只占据了该空间的一小部分，且结构高度有序。进化倾向于重用稳定、可表达且适应性强的折叠方式，而不是将蛋白质均匀地散布在所有可能的序列和形状上。

这对训练数据至关重要。当我们扩展预测结构时，我们并不一定是在添加独立的样本。我们可能还在添加同一折叠家族、结构域组合和进化妥协的许多序列变异体。下面的具体例子展示了基本问题：通过序列相似性衡量时，蛋白质可能相距甚远，但在折叠空间中却非常接近。

一个来自我们 AFDB 片段聚类的具体例子：在结构聚类 A0A242HMU2_f1 中，三颗蛋白质在序列上的同一性仅为 23.9%–28.3%，但仍共享相同的折叠方式（TM-score > 0.75）。裁剪后的成对全局同一性为：28.2%、28.3% 和 23.9%。使用平均长度归一化，预测结构上的局部 TM-align 分数为 0.768–0.813。

随着我们扩大序列数据集，我们应该期望看到多少真正新的折叠方式？如果 MGnify 增长 10 倍，其中有多少新序列实际上是结构新颖的？

为了在整个空间中系统地回答这个问题，我们需要一种可扩展的聚类算法。Foldseek 是为此目的而设计的出色工具，其作者已经用它对 AlphaFold 数据库进行了聚类，报告了 230 万个非单例结构聚类。但是，对预测结构进行聚类存在实际问题，且聚类问题本身是不适定的（ill-posed）。我们认为，可重用的结构邻域的真实数量更接近数万而不是 230 万——在我们目前的分析中，更接近 25,000 而不是 230 万。推理如下。

预测结构聚类的难题

预测结构与晶体不同。序列和 MSA 是真实的，但结构缺乏上下文，且 AlphaFold 会预测整个链：有序结构域、松散尾部、长连接肽、信号肽以及相对位置可能无意义的多结构域蛋白质。

这使得聚类问题变得不适定。两个蛋白质是因为一个结构域匹配而具有相同的折叠吗？还是因为一个具有无序延伸而不同？

预测结构的形状也是在此类数据上训练生成模型的问题所在。你不希望浪费模型容量去拟合无序区域，也不希望学习生成奇怪、拉长的链。你可以基于全局 pLDDT、回转半径和类似的整链指标进行过滤，但这些过滤条件对于这种形状的数据来说太粗糙了——它们会丢弃附着在坏尾部上的好结构域。我们需要一种更精细的方法来保留信号并丢弃噪声。

第一遍：移除明显的噪声

(注：原文在此处中断，但根据上下文逻辑，此处应指代通过初步筛选去除明显无序或低质量的结构片段，以保留高置信度的结构域用于后续的精细聚类和分析。)

关键要点

生物分子生成的爆发：基于深度学习的生成模型（如 AlphaFold3、Chai-2、Latent-X2）正在彻底改变药物发现和抗体设计，有望推出具有更优特性的临床级生物制剂。
扩展策略的核心：改进生物分子模型的关键在于扩展数据。目前的策略是利用结构预测模型（如 AlphaFold），将海量的天然蛋白质序列（来自 MGnify 等宏基因组数据库）转换为 3D 结构，从而将“序列规模”转化为“结构规模”。
冗余性陷阱：虽然天然蛋白质序列数量庞大，但其折叠方式（Folds）具有极高的冗余性。进化倾向于重用稳定且适应性强的折叠，导致大量不同的序列对应相同的结构折叠。
序列多样性 $\neq$ 结构多样性：在训练数据中，增加序列数量并不等同于增加结构多样性。许多新增的序列变异体属于相同的折叠家族，无法为模型提供新的结构几何信息。
聚类的挑战：
- 现有的

查看原文 →research.ligo.bio