← 返回信息流
AI 资讯雷峰网·3 小时前2 源报道

CVPR 2026:CV与机器人物理结界打破,中国军团强势崛起

原标题:CVPR 2026现场直击:CV与机器人的物理结界被彻底打破

速览

CVPR 2026投稿量激增,核心叙事转向具身智能与多模态基础模型,标志着计算机视觉从感知向物理行动进军。中国高校在论文录用中占据主导,上海交通大学、浙江大学等八所高校入选前十。同时,腾讯、字节跳动等中国企业通过赞助与主办Workshop,从参与者转变为规则制定者,展现全栈AI产业链实力。

AI 深度解读

背景

2026年6月,全球计算机视觉与机器人领域的两大顶级学术会议——CVPR 2026(计算机视觉与模式识别会议)与 ICRA 2026(机器人与自动化国际会议)几乎同期举行。CVPR 2026 在美国丹佛科罗拉多会议中心举办,ICRA 2026 则在奥地利维也纳进行。

这种“全球双城赶场”的现象并非偶然,而是折射出两大领域正在发生的史诗级融合。CVPR 2026 的论文投稿量达到创纪录的 16,092 篇,较上年激增 24%,最终录用约 4,090 篇,录用率维持在 25.42%。在这一背景下,会议的核心叙事已从过去的图像生成和 2D 检测,彻底转向“多模态基础模型”与“具身智能”。计算机视觉不再局限于屏幕内的“画框识别”,而是全面进军具有物理法则的真实三维世界,视觉系统开始从单纯的感知(Sense)转向主导行动(Act)。

核心内容

1. 中国学术与产业力量的全面崛起 在 CVPR 2026 的高校论文接收 Top 10 中,中国高校占据八席。上海交通大学以 46 篇位居榜首,浙江大学(40 篇)、中国科学技术大学(38 篇)、中山大学(36 篇)紧随其后。西湖大学凭借 4 位学者产出 22 篇论文的高效率跻身第十。

在产业端,中国科技公司构建了从算力、大模型到数据集及硬件的“软硬一体全栈 AI 产业链”。

  • 顶级赞助: 腾讯拿下最高级别 Ultimate Sponsor;阿里云、蚂蚁集团、字节跳动及大模型独角兽 MiniMax 位列白金赞助商。
  • 垂直领域初创: 苏度科技(Sudo,由苏昊教授创办)、Linkerbot、Nexdata(数据堂)、潞晨科技(HPC AI COM,提供 Colossal-AI 系统)等企业在黄金与白银赞助商中展现锐气。
  • 其他巨头: 百度、美团、字节跳动、阿里巴巴、腾讯、美团、元戎启行、宇树科技、光轮智能、自变量等公司均深度参与。

2. 具身智能基础模型部署(WDFM-EAI):产业巨头同台对话 在 WDFM-EAI Workshop 上,特斯拉、小鹏、Waymo 和英伟达的高管罕见同台,探讨 VLA(视觉-语言-动作)模型与自动驾驶/机器人的结合。

  • 特斯拉(Tesla): Ashok Elluswamy 披露了 Tesla 在具身智能的技术积累,包括将 FSD 上下文长度从 10 秒提升至 30 秒,并首次公开 FSD 模型完整输入/输出架构。特斯拉强调将自动驾驶与 Optimus 人形机器人项目深度协同。
  • 小鹏汽车: 刘先明指出 VLA 与世界模型并非竞争关系,而是物理世界基座模型的两大支柱。小鹏第二代 VLA 已量产落地,辅助驾驶里程占比突破 50%,并认为只有具备基座模型能力的公司才能通往 L4 级自动驾驶。
  • 其他嘉宾: Waymo 研究副总裁 Dragomir Anguelov 和英伟达感知与机器人研究副总裁 Jan Kautz 也参与了讨论。

3. 学术话语权争夺:OpenDriveLab 与上海 AI Lab 由上海 AI Lab/商汤系主办的 OpenDriveLab 已连续四年举办 Workshop,今年主题为“从实验室到生活:野外具身智能”。嘉宾阵容包括苏昊教授(演讲《物理理解的幻觉》)、哈佛助理教授 Yilun Du、UC Berkeley 的 Jiahui Lei 以及 UPenn 助理教授 Jiatao Gu。会议尾声设置了激烈的辩论环节,探讨具身智能的核心议题,如“具身智能是否需要关心 3D”。

4. GigaBrain Challenge:中国团队包揽四项冠军 由极佳视界(GigaAI)牵头组织的 GigaBrain Challenge 2026 设置了仿真 VLA 评测、世界模型评估器、真机机器人操控和物理爪持演示四个赛道。中国团队在全部四个赛道中包揽冠军:

  • RoboChallenge(真机赛道): 小米凭借模型“my16”以 40.89% 的成功率夺冠,是唯一突破 40% 成功率的模型。该模型采用“S1/S2 双系统 + 长短期记忆 + 跨本体预训练”架构。
  • 其他赛道冠军: 电子科技大学(RoboTwin 仿真赛道)、清华大学(世界模型赛道)、清华深研院(PhysClaw 演示赛道)。 小米机器人团队因此成为丹佛(CVPR)与维也纳(ICRA)双城赛果中最耀眼的“中国代表”。

5. 技术落地与全球影响 CVPR 2026 首次在 F 展厅推出“AI Demonstrations”环节,近 30 场现场演示将论文转化为可交互的真实系统,强调“不看 poster,看真机”。此外,由于地理限制,欧洲学者在巴黎自发组织 CVPR@Paris 2026 平行活动,香港大学李弘扬教授等顶尖学者受邀分享,显示 CVPR 的影响力已溢出单一会场,成为全球性的技术共振。

关键要点

  • 技术范式转移: CVPR 2026 的核心议题从 2D 视觉转向“多模态基础模型”与“具身智能”,视觉系统正从感知端向行动端延伸,旨在解决 Sim-to-Real(仿真到现实)的虚实差异及 3D 物理理解问题。
  • 中国学术统治力: 中国高校在 CVPR 2026 论文接收量中占据绝对优势,Top 10 中占 8 席,西湖大学人均产出效率极高。
  • 全栈产业链闭环: 中国企业不再仅作为底层代工,而是构建了涵盖算力(阿里云、潞晨)、大模型(MiniMax、字节)、数据(Nexdata)及具身智能硬件(苏度、Linkerbot、小米)的完整生态。
  • 自动驾驶与具身智能融合: 特斯拉与小鹏等车企高管在 CVPR 上的密集亮相,标志着自动驾驶技术正在向更广泛的具身 AI 平台演进,VLA 与世界模型的融合被视为通往 L4 的关键路径。
  • 真机性能突破: 在 GigaBrain Challenge 中,小米模型“my16”在真机操控赛道取得 40.89% 的成功率,标志着具身智能在复杂物理环境下的泛化能力取得实质性进展。
  • 全球学术共振: 通过 CVPR@Paris 等平行活动,中国及全球顶尖学者(如李弘扬、苏昊等)正在全球范围内推动多模态与视觉大模型的最新进展,技术讨论不再局限于单一地理坐标。

意义与影响

CVPR 2026 标志着计算机视觉领域正式进入“具身智能”时代。视觉技术不再仅仅是识别图像中的物体,而是成为连接数字世界与物理世界的桥梁,直接驱动机器人和自动驾驶汽车在真实三维环境中进行复杂操作。

对于产业界而言,中国科技公司与高校的全面崛起,意味着中国在 AI 基础架构、算法模型及硬件落地层面已形成全球竞争力。特斯拉、小鹏、小米等企业的技术路径展示,为行业提供了从端到端自动驾驶到通用具身智能落地的宝贵参考。

对于学术界,Workshop 中关于 VLA 与世界模型关系的辩论,以及 GigaBrain Challenge 中真机性能的量化指标,正在重新定义具身智能的研究标准与评估体系。随着技术从实验室走向丹佛、维也纳乃至巴黎的街头,AI 与物理世界的深度融合将加速到来,彻底改变人机交互与自动化生产的形态。

查看原文 →leiphone.com