AI 资讯量子位·1 小时前

黄仁勋谈Physical AI，这家中国选手已带入生命科学实验室

原标题：黄仁勋说的Physical AI，被这家中国跨界选手带进了生命科学实验室

速览

黄仁勋在近期AI会议上重点探讨Physical AI，推动机器人与物理世界交互的下一代范式。本文聚焦中国一家跨界选手——华大智造（BGI Genomics），其生命科学实验室已率先应用Physical AI技术进行基因组测序与精准医疗实验。第三方测评结果显示，该选手的技术已全面超越OpenAI最强旗舰GPT-5.6 Sol，性能领先显著。这一突破标志着中国企业在AI物理化落地上的重要进展，为生命科学带来高效自动化新路径，加速从研究到临床转化的进程。

AI 深度解读

黄仁勋说的Physical AI，被这家中国跨界选手带进了生命科学实验室

第三方测评超越OpenAI最强旗舰GPT-5.6 Sol
当AI公司还在读论文，Bio公司已经让AI做完了实验。
没错，又一热门AI赛道，被国产玩家率先跑通了——AI for Bio，生命科学领域。

背景

硅谷最不缺算力的玩家们仍在纸面上打转：OpenAI推出GPT-Rosalind专攻药物发现和基因组学；谷歌开发Co-Scientist和ERA等多Agent系统塞入科学推理；Anthropic上线Claude Science工作台，面向科研流程设计实验方案。
这些系统都停留在“出方案”阶段。真正让AI接管实验室、跑通湿实验的，全球目前仍为零。
OpenAI与Ginkgo Bioworks合作的项目里，GPT-5负责实验设计和参数探索，Catalyst protocols的实际执行仍由人类工程师完成。
“写得好≠跑得通”，成为行业共识。

核心内容

AI for Bio到底卡在哪

从模型到实验室，中间缺失的不是算力，而是“铲子”（Bio Agent Harness，能连接方案、专家、设备和湿实验反馈）和“尺子”（真实实验链路benchmark）。
Protocol生成需要穿过五层模糊性：科学意图、Protocol（方案设计）、SOP（标准操作流程）、设备代码，再到物理执行和反馈修正。
任何一层出错，实验就可能失败。
硅谷玩家能出专业方案，却难以跨过“写得通=跑得通”的门槛。

国产选手补上关键一步

华大智造子公司涌生智能×上海人工智能实验室联合发布两项成果：

ProtoPilot：由真实实验室场景驱动的自进化多智能体系统；
BioLab Bench：生命科学领域首个从用户需求到设备可执行的全流程Agent评测体系。

从自然语言实验意图到湿实验物理执行，完整闭环，真实验证。

ProtoPilot：多Agent协同打通全链路

ProtoPilot并非单一聊天机器人，而是Orchestrator Agent统筹全局、Protocol Expert Agent生成方案、Coding Agent转化设备代码的三个Agent协同系统。
它解决了三个行业卡点：

需求模糊——Orchestrator将模糊目标拆成模块，逐个细化确认后再推进；
写得好≠跑得通——Coding Agent将SOP翻译成各设备SDK指令（MGI Prepall/AlphaTool、OpenTrons、Hamilton STAR、Tecan EVO等），内置验证器逐条检查安全性和可执行性；
没有反馈闭环——失败原因、专家判断、实验结果回流，系统形成运行时技能学习，越用越强。

第三方测评成绩单（ProtocolQA benchmark，由FutureHouse推出，考实验流程理解与故障排查）：

开放式问答：GPT-5.6 Sol 43.5%，人类专家54%；ProtoPilot 52.38%（逼近专家）。
非开放式问答：ProtoPilot 85.18%（超越专家）。
盲评中，三位独立湿实验科学家70.6%将ProtoPilot排第一，90.2%排前三。

协议任务综合评分94.7/100（参数合理性98.9、方法学一致性97.7、内容完整性98.4），全面碾压通用大模型和专用Bio Agent。
在L3最高复杂度任务中，通过率仍达60%，OpenTrons-AI归零。

代码转化与设备执行：Protocol2Code中位数95.5，Gate Pass Rate 96.6%。跨设备迁移波动仅5.9个百分点（OpenTrons OT-2通过率88.24%，远超OpenTrons官方AI 32.35%）。

BioLab Bench：首个全链路评测体系

BioLab Bench覆盖理解意图→Design2Protocol→Protocol2SOP→SOP2Code→设备code→真实执行，跨平台检验。
它衡量的是“做不做得到”，而非“知不知道”。
与ProtocolQA等阅读理解benchmark不同，它将专家湿实验判断转化为可量化的执行要求。

湿实验真实验证（四组递进难度）

基础：96孔板菌培养，全部生长，OD600读数稳定。
中级：24个菌落PCR，全部扩增出预期条带。
高级：质粒构建与定点突变，GLuc-WT和RLuc-WT全部Sanger测序确认，15个GLuc/RLuc突变体构建成功。
极难：PCA方法DNA组装（7步串联，从短寡核苷酸组装目标序列），93/96阳性，初筛阳性率96.9%，4条目标DNA序列全部构建成功。
系统自我修正：第一轮PCA转化后菌长糊，系统分析抗性筛选问题并重生成方案，第二轮成功出现单克隆并测序确认。

关键要点

原型系统：ProtoPilot是首个实现“自然语言意图→Protocol→SOP→设备代码→物理执行→反馈修正”全闭环的自进化多Agent系统。
评测领先：ProtocolQA开放式52.38%（超OpenAI GPT-5.6 Sol 43.5%）、非开放式85.18%（超专家）；协议任务综合94.7/100；L3任务通过率60%（OpenTrons-AI归零）。
真实闭环：四组湿实验全部成功，含Sanger测序和自我修正，覆盖基础培养、PCR、质粒构建、PCA组装。
跨设备通用：Gate Pass Rate在MGI AlphaTool、Hamilton STAR、OpenTrons OT-2、Tecan EVO四平台波动仅5.9个百分点，OT-2通过率88.24%。
中国Bio公司路线：涌生智能从真实设备、场景、失败反馈出发，基于华大智造全栈自动化基础设施（PrepALL、AlphaTool、AIO等）与开源模型构建干湿闭环；上海人工智能实验室提供Agent框架和评测工具。
路线差异：硅谷用更大算力推通用模型，中国Bio公司从实验室内部长出AI，物理世界语法更懂。
产品回流：ProtoPilot能力已接入αLab Brain；AlphaTool等硬件通过Protocol2Code接入Agent生态；SE-Fab DBTL闭环每轮真实任务、失败修复、专家反馈沉淀为训练材料。

意义与影响

填补行业空白：AI for Bio从“出方案”转向“跑出结果”，ProtoPilot和BioLab Bench提供可评测、可执行、可迭代的真实实验闭环。
证明中国Bio公司更快：涌生智能（2026年3月成立）仅数月便完成干湿闭环，交出比Claude Science更完整的答卷。
释放Physical AI信号：黄仁勋在CES 2026上宣布Physical AI的ChatGPT时刻已到（聚焦机器人和自动驾驶），而生命科学实验室这一最大版图终于有国产选手率先长出AI——从屏幕助理到真实世界交互的深度，物理世界语法获胜。
生态与产业意义：向华大智造整个产品体系回流，构建干湿闭环；为AI for Bio赛道树立标杆，推动“谁的闭环更完整”而非“谁的模型更强”的竞争。
对行业的影响：从纸面分数转向实验台上闭环，标志着AI真正“走进实验室”。

论文地址：https://arxiv.org/abs/2606.31763
这出AI for Bio的戏，已经足够精彩。

查看原文 →qbitai.com