← 返回信息流
AI 资讯量子位·1 小时前

黄仁勋谈Physical AI,这家中国选手已带入生命科学实验室

原标题:黄仁勋说的Physical AI,被这家中国跨界选手带进了生命科学实验室

速览

黄仁勋在近期AI会议上重点探讨Physical AI,推动机器人与物理世界交互的下一代范式。 本文聚焦中国一家跨界选手——华大智造(BGI Genomics),其生命科学实验室已率先应用Physical AI技术进行基因组测序与精准医疗实验。 第三方测评结果显示,该选手的技术已全面超越OpenAI最强旗舰GPT-5.6 Sol,性能领先显著。 这一突破标志着中国企业在AI物理化落地上的重要进展,为生命科学带来高效自动化新路径,加速从研究到临床转化的进程。

AI 深度解读

黄仁勋说的Physical AI,被这家中国跨界选手带进了生命科学实验室

第三方测评超越OpenAI最强旗舰GPT-5.6 Sol
当AI公司还在读论文,Bio公司已经让AI做完了实验。
没错,又一热门AI赛道,被国产玩家率先跑通了——AI for Bio,生命科学领域。

背景

硅谷最不缺算力的玩家们仍在纸面上打转:OpenAI推出GPT-Rosalind专攻药物发现和基因组学;谷歌开发Co-Scientist和ERA等多Agent系统塞入科学推理;Anthropic上线Claude Science工作台,面向科研流程设计实验方案。
这些系统都停留在“出方案”阶段。真正让AI接管实验室、跑通湿实验的,全球目前仍为零。
OpenAI与Ginkgo Bioworks合作的项目里,GPT-5负责实验设计和参数探索,Catalyst protocols的实际执行仍由人类工程师完成。
“写得好≠跑得通”,成为行业共识。

核心内容

AI for Bio到底卡在哪

从模型到实验室,中间缺失的不是算力,而是“铲子”(Bio Agent Harness,能连接方案、专家、设备和湿实验反馈)和“尺子”(真实实验链路benchmark)。
Protocol生成需要穿过五层模糊性:科学意图、Protocol(方案设计)、SOP(标准操作流程)、设备代码,再到物理执行和反馈修正。
任何一层出错,实验就可能失败。
硅谷玩家能出专业方案,却难以跨过“写得通=跑得通”的门槛。

国产选手补上关键一步

华大智造子公司涌生智能×上海人工智能实验室联合发布两项成果:

  • ProtoPilot:由真实实验室场景驱动的自进化多智能体系统;
  • BioLab Bench:生命科学领域首个从用户需求到设备可执行的全流程Agent评测体系。

从自然语言实验意图到湿实验物理执行,完整闭环,真实验证。

ProtoPilot:多Agent协同打通全链路

ProtoPilot并非单一聊天机器人,而是Orchestrator Agent统筹全局、Protocol Expert Agent生成方案、Coding Agent转化设备代码的三个Agent协同系统。
它解决了三个行业卡点:

  1. 需求模糊——Orchestrator将模糊目标拆成模块,逐个细化确认后再推进;
  2. 写得好≠跑得通——Coding Agent将SOP翻译成各设备SDK指令(MGI Prepall/AlphaTool、OpenTrons、Hamilton STAR、Tecan EVO等),内置验证器逐条检查安全性和可执行性;
  3. 没有反馈闭环——失败原因、专家判断、实验结果回流,系统形成运行时技能学习,越用越强。

第三方测评成绩单(ProtocolQA benchmark,由FutureHouse推出,考实验流程理解与故障排查)

  • 开放式问答:GPT-5.6 Sol 43.5%,人类专家54%;ProtoPilot 52.38%(逼近专家)。
  • 非开放式问答:ProtoPilot 85.18%(超越专家)。
    盲评中,三位独立湿实验科学家70.6%将ProtoPilot排第一,90.2%排前三。

协议任务综合评分94.7/100(参数合理性98.9、方法学一致性97.7、内容完整性98.4),全面碾压通用大模型和专用Bio Agent。
在L3最高复杂度任务中,通过率仍达60%,OpenTrons-AI归零。

代码转化与设备执行:Protocol2Code中位数95.5,Gate Pass Rate 96.6%。跨设备迁移波动仅5.9个百分点(OpenTrons OT-2通过率88.24%,远超OpenTrons官方AI 32.35%)。

BioLab Bench:首个全链路评测体系

BioLab Bench覆盖理解意图→Design2Protocol→Protocol2SOP→SOP2Code→设备code→真实执行,跨平台检验。
它衡量的是“做不做得到”,而非“知不知道”。
与ProtocolQA等阅读理解benchmark不同,它将专家湿实验判断转化为可量化的执行要求。

湿实验真实验证(四组递进难度)

  1. 基础:96孔板菌培养,全部生长,OD600读数稳定。
  2. 中级:24个菌落PCR,全部扩增出预期条带。
  3. 高级:质粒构建与定点突变,GLuc-WT和RLuc-WT全部Sanger测序确认,15个GLuc/RLuc突变体构建成功。
  4. 极难:PCA方法DNA组装(7步串联,从短寡核苷酸组装目标序列),93/96阳性,初筛阳性率96.9%,4条目标DNA序列全部构建成功。
    系统自我修正:第一轮PCA转化后菌长糊,系统分析抗性筛选问题并重生成方案,第二轮成功出现单克隆并测序确认。

关键要点

  • 原型系统:ProtoPilot是首个实现“自然语言意图→Protocol→SOP→设备代码→物理执行→反馈修正”全闭环的自进化多Agent系统。
  • 评测领先:ProtocolQA开放式52.38%(超OpenAI GPT-5.6 Sol 43.5%)、非开放式85.18%(超专家);协议任务综合94.7/100;L3任务通过率60%(OpenTrons-AI归零)。
  • 真实闭环:四组湿实验全部成功,含Sanger测序和自我修正,覆盖基础培养、PCR、质粒构建、PCA组装。
  • 跨设备通用:Gate Pass Rate在MGI AlphaTool、Hamilton STAR、OpenTrons OT-2、Tecan EVO四平台波动仅5.9个百分点,OT-2通过率88.24%。
  • 中国Bio公司路线:涌生智能从真实设备、场景、失败反馈出发,基于华大智造全栈自动化基础设施(PrepALL、AlphaTool、AIO等)与开源模型构建干湿闭环;上海人工智能实验室提供Agent框架和评测工具。
  • 路线差异:硅谷用更大算力推通用模型,中国Bio公司从实验室内部长出AI,物理世界语法更懂。
  • 产品回流:ProtoPilot能力已接入αLab Brain;AlphaTool等硬件通过Protocol2Code接入Agent生态;SE-Fab DBTL闭环每轮真实任务、失败修复、专家反馈沉淀为训练材料。

意义与影响

填补行业空白:AI for Bio从“出方案”转向“跑出结果”,ProtoPilot和BioLab Bench提供可评测、可执行、可迭代的真实实验闭环。
证明中国Bio公司更快:涌生智能(2026年3月成立)仅数月便完成干湿闭环,交出比Claude Science更完整的答卷。
释放Physical AI信号:黄仁勋在CES 2026上宣布Physical AI的ChatGPT时刻已到(聚焦机器人和自动驾驶),而生命科学实验室这一最大版图终于有国产选手率先长出AI——从屏幕助理到真实世界交互的深度,物理世界语法获胜。
生态与产业意义:向华大智造整个产品体系回流,构建干湿闭环;为AI for Bio赛道树立标杆,推动“谁的闭环更完整”而非“谁的模型更强”的竞争。
对行业的影响:从纸面分数转向实验台上闭环,标志着AI真正“走进实验室”。

论文地址:https://arxiv.org/abs/2606.31763
这出AI for Bio的戏,已经足够精彩。

查看原文 →qbitai.com