AI 资讯Hacker News·2 天前

如何构建虚拟细胞及探索生物学缩放定律

原标题：How to build a virtual cell and biology scaling laws

速览

本文介绍了构建虚拟细胞的技术路径，并深入分析了生物学中的缩放定律。这一研究有助于理解复杂生物系统的运作机制，为合成生物学和精准医疗提供理论支持。

AI 深度解读

背景

旧金山生物科技公司 Markov Biosciences 的创始人 Adam Green 认为，生物学即将迎来属于它的“GPT 时刻”。这一观点源自 Richard Sutton 提出的“苦涩教训”（The Bitter Lesson）：在人工智能领域，利用大规模无偏见数据和正确的训练目标，往往能胜过那些依赖硬编码规则和人类先验知识的模型。

长期以来，虚拟细胞（Virtual Cell）领域在收集昂贵且复杂的扰动数据（Perturbation Data，即通过实验改变细胞状态以观察反应的数据）上投入过多。Green 的反直觉观点是，训练有用虚拟细胞的关键瓶颈并非数据稀缺，而是算力（Compute）和损失函数（Loss Function）的设计。通过将单细胞 RNA 测序（scRNA-seq）数据视为一种“排序问题”而非原始的计数数据，Markov 发现，仅使用普通观测数据预训练的虚拟细胞展现出了清晰的缩放定律（Scaling Laws）。随着模型规模的扩大，其在预测未见过的扰动方面的表现单调提升，甚至击败了专门为该任务构建、且融合了多种知识源的最先进模型。

核心内容

虚拟细胞与“苦涩教训”的生物学应用

Adam Green 指出，尽管在文本、图像和蛋白质序列建模中，无监督预训练和缩放策略取得了巨大成功，但在单细胞生物学中直接套用这些方法曾被视为“疯狂”。然而，随着模型规模的扩大，当模型吸收了海量的观测数据，并仅用极少量的扰动数据进行微调后，其在预测未见扰动任务上的表现会单调提升。这种基于观测数据的预训练方法，最终在预测精度上超越了那些专门针对扰动预测任务、预训练时注入了大量先验知识的复杂模型。

抗体偶联药物（ADC）的前瞻性预测案例

Markov Biosciences 最近发表了一项具有临床意义的成果：利用虚拟细胞模型对一类名为抗体偶联药物（Antibody-Drug Conjugates, ADCs）的癌症药物进行了前瞻性预测。

背景：ADC 是目前肿瘤学领域最热门的疗法之一。其核心逻辑是利用抗体的高特异性，将小分子药物（Payload）精准递送至癌细胞。然而，尽管已有数千名患者接受剂量测试且部分药物已获批，科学界对于抗体-受体复合物如何内化进入细胞并运输至目的地的具体机制仍缺乏清晰认知，尤其是针对热门靶点 TROP2（常见于肺癌、乳腺癌和膀胱癌）。
预测内容：Markov 的虚拟细胞模型预测了该受体跨膜运输的载体，以及复合物在细胞内的运输路径。模型指出，该受体的运输可能与一种特定的四跨膜蛋白（tetraspanin）共定位有关，这种蛋白负责组织复合物的内化和运输。
验证与意义：这一预测是可证伪的，且与临床药代动力学和肿瘤表达的其他证据相吻合。这是虚拟细胞首次做出具有真实临床 stakes 和巨额制药收入风险的“前瞻性预测”。Markov 已与合同研究组织（CROs）规划了实验方案，针对阿斯利康的 Datroway 和吉利德的 Trodelvy 两款药物进行验证，试图解释两者在药代动力学和临床结果上的差异。

方法论革新：从计数到排序

Green 强调，传统单细胞 RNA 测序数据通常被视为原始计数，但他主张将其转化为一个“排序问题”（Ranking Problem）。这一思路可追溯至 1927 年的一篇心理物理学论文。通过采用生成式排序（Generative Ranking）和几何 Plackett-Luce 模型，并结合消融实验优化损失函数，Markov 证明了细胞应被视为“标本”（Specimens）而非仅仅是“模拟器”（Simulators）。这种转变使得模型能够从廉价的观测数据中提取出强大的泛化能力，从而减少对昂贵扰动数据的依赖。

关键要点

数据与算力的权衡：虚拟细胞领域的过度投资集中在收集昂贵的扰动数据上，而 Green 认为真正的瓶颈在于算力和损失函数的设计。
缩放定律的有效性：仅使用普通观测数据预训练的虚拟细胞，随着模型规模扩大，在预测未见扰动任务上的表现单调提升，且优于专为扰动预测设计的 SOTA 模型。
ADC 机制预测：Markov 利用虚拟细胞模型预测了 TROP2 靶点 ADC 药物的细胞内运输机制，指出其与特定四跨膜蛋白的共定位可能关键，并计划通过实验验证。
前瞻性临床意义：这是虚拟细胞首次做出具有直接临床和商业风险的前瞻性预测，标志着该技术从理论模拟走向实际药物研发应用的关键一步。
方法论转变：将单细胞 RNA-seq 数据从“原始计数”重构为“排序问题”，利用生成式排序和几何 Plackett-Luce 模型优化训练目标。
概念澄清：Green 认为“虚拟细胞”一词已被滥用，建议区分“模拟器”（替代实验室实验）和“标本”（作为科学对象进行分析），并倾向于后者作为科学对象的视角。

意义与影响

打破 Eroom 定律的希望

药物研发长期受困于 Eroom 定律（即药物研发效率随时间推移而下降，成本上升）。虚拟细胞模型若能通过低成本、高算力的模拟来替代部分高昂且低效的湿实验，有望显著提高药物研发的成功率。Markov 的 ADC 案例表明，AI 模型不仅能描述已知现象，还能提出可证伪的新机制假设，从而指导实验设计，缩短研发周期。

生物学研究的范式转移

这一进展标志着生物学研究可能从“基于假设的扰动实验”向“基于数据驱动的预测性模拟”转变。正如 Richard Sutton 的“苦涩教训”在 AI 领域所证明的那样，依靠大规模数据和通用算法可能比依赖人类专家构建的复杂规则更有效。如果生物学也能找到合适的“损失函数”和数据表示方法（如排序问题），那么构建完整的“生物世界模型”（Biological World Models）将不再是空想。

对制药行业的潜在冲击

如果虚拟细胞能够准确预测药物在细胞内的运输机制和药代动力学特征，制药公司将大幅减少对早期临床前动物实验和部分高通量筛选的依赖。这不仅降低了研发成本，还加速了从靶点发现到临床候选药物确定的过程。Markov 与 CROs 的合作模式也为行业提供了一种新的验证路径：AI 提出假设 -> 实验快速验证 -> 反馈优化模型。

科学哲学的反思

Adam Green 提出的“细胞作为标本”而非“模拟器”的观点，引发了对生物建模本质的思考。传统的模拟器试图完全复现生物过程，而基于缩放定律的数据驱动模型则更关注于捕捉数据中的统计规律和潜在结构。这种黑盒模型是否最终能带来对生物学的“机制性理解”（Mechanistic Understanding），还是仅仅停留在预测层面，将是未来科学界争论的焦点。然而，无论最终答案如何，能够做出可证伪且具临床价值的前瞻性预测，已足以证明该技术路径的巨大潜力。

查看原文 →letter.nikomc.com