AI 资讯雷峰网·3 小时前2 源报道

CVPR 2026：CV与机器人物理结界打破，中国军团强势崛起

原标题：CVPR 2026现场直击：CV与机器人的物理结界被彻底打破

速览

CVPR 2026投稿量激增，核心叙事转向具身智能与多模态基础模型，标志着计算机视觉从感知向物理行动进军。中国高校在论文录用中占据主导，上海交通大学、浙江大学等八所高校入选前十。同时，腾讯、字节跳动等中国企业通过赞助与主办Workshop，从参与者转变为规则制定者，展现全栈AI产业链实力。

AI 深度解读

背景

2026年6月，全球计算机视觉与机器人领域的两大顶级学术会议——CVPR 2026（计算机视觉与模式识别会议）与 ICRA 2026（机器人与自动化国际会议）几乎同期举行。CVPR 2026 在美国丹佛科罗拉多会议中心举办，ICRA 2026 则在奥地利维也纳进行。

这种“全球双城赶场”的现象并非偶然，而是折射出两大领域正在发生的史诗级融合。CVPR 2026 的论文投稿量达到创纪录的 16,092 篇，较上年激增 24%，最终录用约 4,090 篇，录用率维持在 25.42%。在这一背景下，会议的核心叙事已从过去的图像生成和 2D 检测，彻底转向“多模态基础模型”与“具身智能”。计算机视觉不再局限于屏幕内的“画框识别”，而是全面进军具有物理法则的真实三维世界，视觉系统开始从单纯的感知（Sense）转向主导行动（Act）。

核心内容

1. 中国学术与产业力量的全面崛起 在 CVPR 2026 的高校论文接收 Top 10 中，中国高校占据八席。上海交通大学以 46 篇位居榜首，浙江大学（40 篇）、中国科学技术大学（38 篇）、中山大学（36 篇）紧随其后。西湖大学凭借 4 位学者产出 22 篇论文的高效率跻身第十。

在产业端，中国科技公司构建了从算力、大模型到数据集及硬件的“软硬一体全栈 AI 产业链”。

顶级赞助： 腾讯拿下最高级别 Ultimate Sponsor；阿里云、蚂蚁集团、字节跳动及大模型独角兽 MiniMax 位列白金赞助商。
垂直领域初创： 苏度科技（Sudo，由苏昊教授创办）、Linkerbot、Nexdata（数据堂）、潞晨科技（HPC AI COM，提供 Colossal-AI 系统）等企业在黄金与白银赞助商中展现锐气。
其他巨头： 百度、美团、字节跳动、阿里巴巴、腾讯、美团、元戎启行、宇树科技、光轮智能、自变量等公司均深度参与。

2. 具身智能基础模型部署（WDFM-EAI）：产业巨头同台对话 在 WDFM-EAI Workshop 上，特斯拉、小鹏、Waymo 和英伟达的高管罕见同台，探讨 VLA（视觉-语言-动作）模型与自动驾驶/机器人的结合。

特斯拉（Tesla）： Ashok Elluswamy 披露了 Tesla 在具身智能的技术积累，包括将 FSD 上下文长度从 10 秒提升至 30 秒，并首次公开 FSD 模型完整输入/输出架构。特斯拉强调将自动驾驶与 Optimus 人形机器人项目深度协同。
小鹏汽车： 刘先明指出 VLA 与世界模型并非竞争关系，而是物理世界基座模型的两大支柱。小鹏第二代 VLA 已量产落地，辅助驾驶里程占比突破 50%，并认为只有具备基座模型能力的公司才能通往 L4 级自动驾驶。
其他嘉宾： Waymo 研究副总裁 Dragomir Anguelov 和英伟达感知与机器人研究副总裁 Jan Kautz 也参与了讨论。

3. 学术话语权争夺：OpenDriveLab 与上海 AI Lab 由上海 AI Lab/商汤系主办的 OpenDriveLab 已连续四年举办 Workshop，今年主题为“从实验室到生活：野外具身智能”。嘉宾阵容包括苏昊教授（演讲《物理理解的幻觉》）、哈佛助理教授 Yilun Du、UC Berkeley 的 Jiahui Lei 以及 UPenn 助理教授 Jiatao Gu。会议尾声设置了激烈的辩论环节，探讨具身智能的核心议题，如“具身智能是否需要关心 3D”。

4. GigaBrain Challenge：中国团队包揽四项冠军 由极佳视界（GigaAI）牵头组织的 GigaBrain Challenge 2026 设置了仿真 VLA 评测、世界模型评估器、真机机器人操控和物理爪持演示四个赛道。中国团队在全部四个赛道中包揽冠军：

RoboChallenge（真机赛道）： 小米凭借模型“my16”以 40.89% 的成功率夺冠，是唯一突破 40% 成功率的模型。该模型采用“S1/S2 双系统 + 长短期记忆 + 跨本体预训练”架构。
其他赛道冠军： 电子科技大学（RoboTwin 仿真赛道）、清华大学（世界模型赛道）、清华深研院（PhysClaw 演示赛道）。小米机器人团队因此成为丹佛（CVPR）与维也纳（ICRA）双城赛果中最耀眼的“中国代表”。

5. 技术落地与全球影响 CVPR 2026 首次在 F 展厅推出“AI Demonstrations”环节，近 30 场现场演示将论文转化为可交互的真实系统，强调“不看 poster，看真机”。此外，由于地理限制，欧洲学者在巴黎自发组织 CVPR@Paris 2026 平行活动，香港大学李弘扬教授等顶尖学者受邀分享，显示 CVPR 的影响力已溢出单一会场，成为全球性的技术共振。

关键要点

技术范式转移： CVPR 2026 的核心议题从 2D 视觉转向“多模态基础模型”与“具身智能”，视觉系统正从感知端向行动端延伸，旨在解决 Sim-to-Real（仿真到现实）的虚实差异及 3D 物理理解问题。
中国学术统治力： 中国高校在 CVPR 2026 论文接收量中占据绝对优势，Top 10 中占 8 席，西湖大学人均产出效率极高。
全栈产业链闭环： 中国企业不再仅作为底层代工，而是构建了涵盖算力（阿里云、潞晨）、大模型（MiniMax、字节）、数据（Nexdata）及具身智能硬件（苏度、Linkerbot、小米）的完整生态。
自动驾驶与具身智能融合： 特斯拉与小鹏等车企高管在 CVPR 上的密集亮相，标志着自动驾驶技术正在向更广泛的具身 AI 平台演进，VLA 与世界模型的融合被视为通往 L4 的关键路径。
真机性能突破： 在 GigaBrain Challenge 中，小米模型“my16”在真机操控赛道取得 40.89% 的成功率，标志着具身智能在复杂物理环境下的泛化能力取得实质性进展。
全球学术共振： 通过 CVPR@Paris 等平行活动，中国及全球顶尖学者（如李弘扬、苏昊等）正在全球范围内推动多模态与视觉大模型的最新进展，技术讨论不再局限于单一地理坐标。

意义与影响

CVPR 2026 标志着计算机视觉领域正式进入“具身智能”时代。视觉技术不再仅仅是识别图像中的物体，而是成为连接数字世界与物理世界的桥梁，直接驱动机器人和自动驾驶汽车在真实三维环境中进行复杂操作。

对于产业界而言，中国科技公司与高校的全面崛起，意味着中国在 AI 基础架构、算法模型及硬件落地层面已形成全球竞争力。特斯拉、小鹏、小米等企业的技术路径展示，为行业提供了从端到端自动驾驶到通用具身智能落地的宝贵参考。

对于学术界，Workshop 中关于 VLA 与世界模型关系的辩论，以及 GigaBrain Challenge 中真机性能的量化指标，正在重新定义具身智能的研究标准与评估体系。随着技术从实验室走向丹佛、维也纳乃至巴黎的街头，AI 与物理世界的深度融合将加速到来，彻底改变人机交互与自动化生产的形态。

查看原文 →leiphone.com

CVPR 2026：CV与机器人物理结界打破，中国军团强势崛起

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐