AI 资讯量子位·2 小时前

中国团队用JEPA架构将世界模型引入细胞内部

原标题：从LLM到JEPA，中国团队正在把“世界模型”搬进细胞内部

速览

四年前LeCun提出JEPA架构，如今中国团队将其应用于细胞内部理解。该工作将世界模型从宏观场景移植到微观细胞层面，有望揭示细胞运行机制。这是AI与生物学深度交叉的一次创新尝试，扩展了AI架构的应用边界。

AI 深度解读

背景

AI虚拟细胞（AIVC）赛道正在经历从概念验证到技术竞速的关键转折。理解细胞状态变化是生命科学的核心问题——疾病发生、药物作用、细胞治疗本质上都是细胞状态的动态演化。然而，传统的细胞培养、动物实验和人体验证成本高昂、周期漫长，亟待新方法突破“双十定律”（十年研发周期、十亿美元投入，临床成功率不足10%）。

虚拟细胞的概念早在20世纪90年代就已出现，但早期模型并非学习型模拟器，无法预测细胞在不同条件下的功能和行为。直到近年来单细胞测序技术成本大幅下降（数据每6个月翻一番），以及AI技术的进步，才为构建可学习的虚拟细胞奠定基础。2024年12月，斯坦福大学、基因泰克与陈—扎克伯格基金会的联合团队在《Cell》发表论文，正式宣告AIVC时代到来。此前已有Geneformer、scGPT、scFoundation、GeneCompass等模型，但它们在预测细胞动态变化（如基因敲除、药物扰动后的演化）上存在明显局限。

核心问题在于：第一代AIVC模型的训练目标是学习基因表达模式本身，而非细胞状态变化的内在机制。它们难以区分背景噪声与真正驱动细胞状态演化的关键信号，也缺乏对基因调控关系及动态规律的刻画。2026年6月《Nature Methods》刊发的一项研究显示，基于2220万细胞的scTab语料库预训练400个模型，性能在使用约1%数据后便进入平台期——仅靠扩大数据规模和参数无法持续提升。这促使行业反思：问题是否出在数据规模不足，还是建模范式已触及瓶颈？

核心内容

在这一背景下，中国团队百曜科技（全球最早布局AIVC的企业之一）发布了全球首个基于LLM-JEPA架构的AI虚拟细胞世界模型——AURA CellOS。该模型是目前公开报道中参数规模最大的单细胞基础模型，基于3.905亿个人类单细胞转录组数据训练，参数规模达12B，覆盖40余种人体组织、260余种细胞类型。

CellOS首次将JEPA（联合嵌入预测架构）与世界模型理念系统性引入单细胞研究。其核心创新有三点：

多视角表征学习：传统模型仅依赖单一“表达视角”（基因在单个细胞中的表达丰度），容易忽略表达量低但生物学意义重要的调控基因。CellOS引入“双视角互补机制”，在表达视角之外增加“群体感知视角”，同时分析基因的表达丰度和在群体中的特异性，使模型能更敏锐地捕捉隐藏的重要生物学信号。
JEPA联合嵌入预测架构：在双视角提供高质量互补表征后，CellOS引入JEPA，在隐空间利用这些互补表征进行跨视角预测和对齐。传统模型要求“原样复述”输入，而JEPA迫使模型用“一种视角”去预测“另一种视角”看到的结果，从而学会在隐空间中建立细胞状态的内在模型，抓住真正稳定的生物学规律。这使得模型从“看懂表面”升级到“理解本质”，尤其在动态预测（如扰动响应）任务上效果显著。
无损扩容训练方案：为解决大模型常见的“灾难性遗忘”问题，CellOS设计了一种平滑升级方案：先训练一个中小型稠密模型，打牢基础；再通过参数平滑扩展为12B参数的MoE（混合专家模型），保留原有核心知识并新增“专家”学习更复杂内容，确保模型变大后性能不下降。

训练策略上，CellOS采用Dense-to-MoE三阶段训练：第一阶段用传统表达视角训练稠密模型；第二阶段扩容至12B MoE；第三阶段加入群体感知视角并开启JEPA对齐训练。这种分阶段设计降低了训练风险，使每层创新在最合适时机发挥作用。

在评测结果上，CellOS在多基准测试中达到SOTA水平。衡量细胞状态预测能力的核心指标Pearson_edist上，CellOS取得0.619，位列所有模型第一，且唯一突破0.6；相比表现最好的开源模型TranscriptFormer（0.373），拉开66%的性能差距。在细胞状态注释任务中，聚合注释基准上取得0.792的生物学保守分数，全面超越UCE、scGPT、TranscriptFormer等主流单细胞基础模型。

关键要点

百曜科技发布AURA CellOS，基于LLM-JEPA架构，参数规模12B，训练数据3.905亿个人类单细胞转录组，覆盖40余种组织、260余种细胞类型，是目前公开报道中最大的单细胞基础模型。
核心创新一：多视角表征学习，引入“群体感知视角”与“表达视角”双视角互补，提高对关键生物学信号的敏感度。
核心创新二：JEPA联合嵌入预测架构，在隐空间进行跨视角预测和对齐，迫使模型学习细胞状态演化的内在规律，而非静态表达模式。
核心创新三：无损扩容训练方案，通过Dense-to-MoE三阶段训练，先训练稠密模型再平滑升级为MoE，避免灾难性遗忘。
评测结果：CellOS在Pearson_edist指标上0.619，是唯一超过0.6的模型，比TranscriptFormer高66%；在细胞状态注释任务上生物学保守分数0.792，全面超越主流模型。
该模型将世界模型理念引入单细胞研究，是AI虚拟细胞领域首个“吃螃蟹”的模型，标志着从“看懂细胞表达”到“理解细胞状态”的范式升级。

意义与影响

技术路线革新：CellOS证明了JEPA架构在生命科学领域的可行性，打破了传统大语言模型在单细胞数据上的瓶颈——问题不在于Scaling Law本身，而在于传统架构与细胞数据特性的系统性错配。这一路线为后续AIVC模型提供了新范式。
中国团队的规则参与：在全球AI虚拟细胞竞赛中，中国团队从“跟随者”转向“规则参与者”。百曜科技已构建“数据—模型—实验”持续迭代的研发闭环，覆盖单细胞数据处理、高通量扰动实验和AI模型训练，与海外头部平台公司路线一致。其先发优势明显，布局了管线资产和模型服务两大应用方向，涵盖靶点发现、虚拟药筛及虚拟临床全周期。
产业生态催化：CellOS的发布进一步推动了AIVC产业的分化与竞争。当前全球已形成三类核心玩家：基础研究团队（如Arc Institute、同济大学）、平台型创业公司（如Xaira、百曜科技）、AI制药公司（如Recursion、Isomorphic Labs）。行业关注点从单一模型性能转向“谁拥有持续产生高质量数据的能力”“谁形成模型—实验—数据闭环”“谁真正进入药物研发决策流程

查看原文 →qbitai.com

中国团队用JEPA架构将世界模型引入细胞内部

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐