← 返回信息流
AI 资讯量子位·3 小时前

CVPR看点在广东:何恺明再获大奖,广工大打破名校垄断

原标题:今年CVPR看点是广东:何恺明再获至高大奖,广工大打破大厂名校垄断

速览

今年CVPR会议亮点集中在广东地区。何恺明再次获得该领域的至高大奖,彰显其学术地位。同时,广东工业大学打破了以往大厂和名校对该奖项的垄断局面。

AI 深度解读

背景

CVPR 2026(IEEE/CVF Conference on Computer Vision and Pattern Recognition)作为计算机视觉领域的顶级会议,于近期在美国丹佛落下帷幕。本届会议呈现出规模与质量的双重爆发:收到投稿16,092篇,录用4,071篇,录用率约为25.3%,论文数量较去年增长23.71%,刷新历史纪录。与此同时,作者、审稿人及领域主席的数量也全部创下新高。

在学术影响力方面,华人研究者在本届CVPR中占据了主导地位。数据显示,中国籍作者人数以23,233人断层第一,几乎是第二名美国(7,556人)的三倍;审稿人数量同样以1,0687人位居榜首。从最佳论文到学生论文,再到时间检验奖,华人面孔遍布各大荣誉榜单。然而,在各大厂和顶尖名校垄断奖项的常态下,今年出现了一个引人注目的“异类”——来自广东工业大学等国内普通高校的本科生团队,打破了这一固有格局。

核心内容

本届CVPR的奖项竞争异常激烈,最终从74篇入围论文中选出15篇进入决赛圈,并颁发了5项主要奖项。以下是各奖项获奖作品的详细解读:

1. 最佳论文:D4RT

  • 来源:Google DeepMind(联合UCL、牛津大学)。
  • 核心工作:提出了一种名为D4RT的前馈模型,能够从单段视频中快速且准确地重建动态4D场景(3D空间+时间)。
  • 技术突破:摒弃了传统方法中“逐帧解码”的低效模式,采用“按需查询”机制。模型先将视频编码为全局场景表示,再通过轻量级解码器回答特定时空点的三维位置。该接口统一输出深度图、点云、点轨迹及相机参数,无需为不同任务训练多个解码器。
  • 性能表现:在A100 GPU上,位姿估计速度达到200+ FPS,比去年的最佳论文VGGT快约9倍,比MegaSaM快约100倍,且精度更优。在多项动态4D重建与追踪任务上刷新SOTA,并支持全像素稠密重建。
  • 师承脉络:D4RT作者包含牛津VGG实验室灵魂人物Andrew Zisserman,延续了去年VGGT所在的几何重建研究脉络。

2. 最佳论文荣誉提名(2篇)

  • SAM 3D
    • 来源:Meta超级智能实验室。
    • 核心工作:将SAM系列从图像分割扩展至单图3D重建。
    • 技术突破:通过“人机协同”标注流水线,利用合成预训练+真实对齐的多阶段训练,突破了3D领域的“数据墙”。该模型能预测物体的几何、纹理和空间布局,擅长处理遮挡和杂乱场景。
    • 表现:在面向真实物体和场景的人类偏好测试中,胜率至少为5:1。
  • NitroGen
    • 来源:英伟达、斯坦福大学、加州理工学院、芝加哥大学、德克萨斯大学奥斯汀分校。
    • 核心工作:通用游戏智能体开源基座模型。
    • 技术突破:在1000多款游戏、4万小时视频上训练。通过自动化反解公开游戏视频构建“视频-动作”数据集,搭建多游戏评测环境,并采用大规模行为克隆训练统一的“视觉-动作”策略。
    • 表现:涵盖3D战斗、2D平台跳跃及程序生成世界探索,迁移至新游戏时任务成功率最高提升52%。

3. 最佳学生论文:TRELLIS.2

  • 来源:清华大学、微软研究院、中国科学技术大学。
  • 核心工作:解决3D生成中“画面逼真但表示方法拖后腿”的问题,特别是复杂拓扑和精细外观的建模。
  • 技术突破:提出O-Voxel新型稀疏体素结构,同时编码几何、外观及PBR材质参数,支持开放面、非流形等复杂拓扑。配合稀疏压缩VAE形成紧凑潜在空间,并训练了40亿参数的flow-matching大模型实现图生3D。
  • 表现:在保持大规模参数量的同时实现快速推理,生成的资产几何和材质质量显著优于现有模型。

4. 最佳学生论文提名:ChordEdit

  • 来源:广东工业大学、惠州学院、深圳大学、北京大学。
  • 核心工作:解决一步式(单步推理)文生图模型在文本引导图像编辑中容易出现的物体变形和细节丢失问题。
  • 技术突破:将图像编辑重构为最优传输问题,基于动态最优传输理论推导出一套低能量控制策略,使编辑场更平滑稳定,实现“一大步”完成编辑。
  • 亮点:团队由纯国内高校组成,包括广东工业大学的本科生作为一作,打破了大厂和名校对奖项的垄断。

5. 时间检验奖(Longuet-Higgins Prize)

  • 颁发对象:发表十年且经受住时间考验的论文,今年颁给2016年的两篇奠基之作。
  • ResNet:通过残差连接解决深层网络训练难题,引用量超32万,成为深度学习(从CNN到Transformer)的默认地基。
  • YOLO v1:将目标检测改为端到端回归,实现实时检测(45 FPS),催生后续SSD、RetinaNet及整个YOLO家族,引用量近8万。

6. PAMI人物奖

  • 年轻学者奖
    • Deepak Pathak(CMU副教授):研究机器人在真实世界中的学习、感知与行动。
    • Vincent Sitzmann(MIT副教授):主攻神经场景表示、3D视觉及世界模型。
  • Thomas Huang纪念奖
    • Noah Snavely(康奈尔大学教授):表彰其在研究、教学及社区服务的典范贡献。该奖项旨在纪念华裔CV先驱黄煦涛。

关键要点

  • 华人统治力持续增强:CVPR 2026的获奖者中,华人面孔无处不在。从最佳论文一作Chuhan Zhang(张楚晗),到最佳学生论文TRELLIS.2的全华人阵容,再到ResNet的四位作者(何恺明、张祥雨、任少卿、孙剑),华人研究者几乎包揽了所有顶级荣誉。
  • “广东力量”打破垄断:ChordEdit团队来自广东工业大学、惠州学院、深圳大学和北京大学,其中一作及多位核心成员为本科生。这是今年最令人耳目一新的奖项,证明了非名校、非大厂背景的团队凭借扎实的研究同样能获得国际顶级认可。
  • 几何重建成为年度主线:最佳论文D4RT和荣誉提名SAM 3D均聚焦于3D/4D重建,且D4RT直接对标去年的最佳论文VGGT,显示几何重建领域连续两年占据学术高地。
  • 数据与算力驱动范式转移
    • D4RT通过高效的按需查询机制,将动态4D重建速度提升百倍,解决了实时性难题。
    • SAM 3D通过大规模合成数据与真实数据对齐,突破了3D生成的数据瓶颈。
    • NitroGen通过自动化构建互联网规模的“视频-动作”数据集,推动了通用游戏智能体的发展。
  • 经典算法历久弥新:ResNet和YOLO v1在发表十年后仍获时间检验奖,证明了其基础架构和思想对后续十年AI发展的深远影响。
  • 3D生成进入“大模型”时代:TRELLIS.2展示了40亿参数模型在3D生成中的应用,结合O-Voxel和flow-matching技术,标志着3D内容生成正朝着更高精度、更复杂拓扑和更快速度发展。

意义与影响

1. 学术评价体系的多元化启示 ChordEdit团队的获奖具有标志性意义。在

查看原文 →qbitai.com