← 返回信息流
AI 资讯量子位·2 小时前

中国团队用JEPA架构将世界模型引入细胞内部

原标题:从LLM到JEPA,中国团队正在把“世界模型”搬进细胞内部

速览

四年前LeCun提出JEPA架构,如今中国团队将其应用于细胞内部理解。该工作将世界模型从宏观场景移植到微观细胞层面,有望揭示细胞运行机制。这是AI与生物学深度交叉的一次创新尝试,扩展了AI架构的应用边界。

AI 深度解读

背景

AI虚拟细胞(AIVC)赛道正在经历从概念验证到技术竞速的关键转折。理解细胞状态变化是生命科学的核心问题——疾病发生、药物作用、细胞治疗本质上都是细胞状态的动态演化。然而,传统的细胞培养、动物实验和人体验证成本高昂、周期漫长,亟待新方法突破“双十定律”(十年研发周期、十亿美元投入,临床成功率不足10%)。

虚拟细胞的概念早在20世纪90年代就已出现,但早期模型并非学习型模拟器,无法预测细胞在不同条件下的功能和行为。直到近年来单细胞测序技术成本大幅下降(数据每6个月翻一番),以及AI技术的进步,才为构建可学习的虚拟细胞奠定基础。2024年12月,斯坦福大学、基因泰克与陈—扎克伯格基金会的联合团队在《Cell》发表论文,正式宣告AIVC时代到来。此前已有Geneformer、scGPT、scFoundation、GeneCompass等模型,但它们在预测细胞动态变化(如基因敲除、药物扰动后的演化)上存在明显局限。

核心问题在于:第一代AIVC模型的训练目标是学习基因表达模式本身,而非细胞状态变化的内在机制。它们难以区分背景噪声与真正驱动细胞状态演化的关键信号,也缺乏对基因调控关系及动态规律的刻画。2026年6月《Nature Methods》刊发的一项研究显示,基于2220万细胞的scTab语料库预训练400个模型,性能在使用约1%数据后便进入平台期——仅靠扩大数据规模和参数无法持续提升。这促使行业反思:问题是否出在数据规模不足,还是建模范式已触及瓶颈?

核心内容

在这一背景下,中国团队百曜科技(全球最早布局AIVC的企业之一)发布了全球首个基于LLM-JEPA架构的AI虚拟细胞世界模型——AURA CellOS。该模型是目前公开报道中参数规模最大的单细胞基础模型,基于3.905亿个人类单细胞转录组数据训练,参数规模达12B,覆盖40余种人体组织、260余种细胞类型。

CellOS首次将JEPA(联合嵌入预测架构)与世界模型理念系统性引入单细胞研究。其核心创新有三点:

  1. 多视角表征学习:传统模型仅依赖单一“表达视角”(基因在单个细胞中的表达丰度),容易忽略表达量低但生物学意义重要的调控基因。CellOS引入“双视角互补机制”,在表达视角之外增加“群体感知视角”,同时分析基因的表达丰度和在群体中的特异性,使模型能更敏锐地捕捉隐藏的重要生物学信号。

  2. JEPA联合嵌入预测架构:在双视角提供高质量互补表征后,CellOS引入JEPA,在隐空间利用这些互补表征进行跨视角预测和对齐。传统模型要求“原样复述”输入,而JEPA迫使模型用“一种视角”去预测“另一种视角”看到的结果,从而学会在隐空间中建立细胞状态的内在模型,抓住真正稳定的生物学规律。这使得模型从“看懂表面”升级到“理解本质”,尤其在动态预测(如扰动响应)任务上效果显著。

  3. 无损扩容训练方案:为解决大模型常见的“灾难性遗忘”问题,CellOS设计了一种平滑升级方案:先训练一个中小型稠密模型,打牢基础;再通过参数平滑扩展为12B参数的MoE(混合专家模型),保留原有核心知识并新增“专家”学习更复杂内容,确保模型变大后性能不下降。

训练策略上,CellOS采用Dense-to-MoE三阶段训练:第一阶段用传统表达视角训练稠密模型;第二阶段扩容至12B MoE;第三阶段加入群体感知视角并开启JEPA对齐训练。这种分阶段设计降低了训练风险,使每层创新在最合适时机发挥作用。

在评测结果上,CellOS在多基准测试中达到SOTA水平。衡量细胞状态预测能力的核心指标Pearson_edist上,CellOS取得0.619,位列所有模型第一,且唯一突破0.6;相比表现最好的开源模型TranscriptFormer(0.373),拉开66%的性能差距。在细胞状态注释任务中,聚合注释基准上取得0.792的生物学保守分数,全面超越UCE、scGPT、TranscriptFormer等主流单细胞基础模型。

关键要点

  • 百曜科技发布AURA CellOS,基于LLM-JEPA架构,参数规模12B,训练数据3.905亿个人类单细胞转录组,覆盖40余种组织、260余种细胞类型,是目前公开报道中最大的单细胞基础模型。
  • 核心创新一:多视角表征学习,引入“群体感知视角”与“表达视角”双视角互补,提高对关键生物学信号的敏感度。
  • 核心创新二:JEPA联合嵌入预测架构,在隐空间进行跨视角预测和对齐,迫使模型学习细胞状态演化的内在规律,而非静态表达模式。
  • 核心创新三:无损扩容训练方案,通过Dense-to-MoE三阶段训练,先训练稠密模型再平滑升级为MoE,避免灾难性遗忘。
  • 评测结果:CellOS在Pearson_edist指标上0.619,是唯一超过0.6的模型,比TranscriptFormer高66%;在细胞状态注释任务上生物学保守分数0.792,全面超越主流模型。
  • 该模型将世界模型理念引入单细胞研究,是AI虚拟细胞领域首个“吃螃蟹”的模型,标志着从“看懂细胞表达”到“理解细胞状态”的范式升级。

意义与影响

  • 技术路线革新:CellOS证明了JEPA架构在生命科学领域的可行性,打破了传统大语言模型在单细胞数据上的瓶颈——问题不在于Scaling Law本身,而在于传统架构与细胞数据特性的系统性错配。这一路线为后续AIVC模型提供了新范式。
  • 中国团队的规则参与:在全球AI虚拟细胞竞赛中,中国团队从“跟随者”转向“规则参与者”。百曜科技已构建“数据—模型—实验”持续迭代的研发闭环,覆盖单细胞数据处理、高通量扰动实验和AI模型训练,与海外头部平台公司路线一致。其先发优势明显,布局了管线资产和模型服务两大应用方向,涵盖靶点发现、虚拟药筛及虚拟临床全周期。
  • 产业生态催化:CellOS的发布进一步推动了AIVC产业的分化与竞争。当前全球已形成三类核心玩家:基础研究团队(如Arc Institute、同济大学)、平台型创业公司(如Xaira、百曜科技)、AI制药公司(如Recursion、Isomorphic Labs)。行业关注点从单一模型性能转向“谁拥有持续产生高质量数据的能力”“谁形成模型—实验—数据闭环”“谁真正进入药物研发决策流程
查看原文 →qbitai.com