速腾聚创杨先声:机器人通用智能需先解决高精度深度感知
速览
速腾聚创副总裁杨先声在ICRA 2026提出全新视觉感知架构,通过物理层面实现深度与RGB天然对齐,无需后期校准。该方案旨在解决机器人感知不准、精度受限等痛点,打破稳定、距离、精度的不可能三角。此举将大幅提升机器人训练数据质量与实时感知能力,加速物理AI进化。
AI 深度解读
背景
在 ICRA 2026(国际机器人与自动化会议)期间,全球具身智能(Embodied AI)公司纷纷展示其最新进展,但行业普遍面临一个被忽视的核心痛点:机器人缺乏真正好用的“眼睛”。尽管大模型和 VLA(Vision-Language-Action)模型带来了通用智能的曙光,但在落地执行层面,机器人因无法准确感知三维世界,导致精细操作能力不足、速度远低于人类。
为了弥补硬件传感器的缺陷,业界往往投入大量资源构建仿真环境、采集标注数据,试图通过算法“猜测”深度信息。这种“用软件填硬件坑”的做法本质上是低效的。在此背景下,速腾聚创(RoboSense)副总裁杨先声在 ICRA 上提出了一套全新的视觉感知架构,旨在从物理层面解决深度与 RGB 信息对齐的问题,打破传统 3D 相机在稳定性、距离和精度上的“不可能三角”。
核心内容
速腾聚创此次提出的核心创新在于其底层架构的重构。与行业普遍采用的“先分别采集、后算法融合”方案不同,该新架构在物理层面实现了深度探测与 RGB 信息的天然对齐。这意味着深度信息与颜色信息无需后期复杂的校准或算法处理,即可直接输出给后端系统。
1. 感知痛点与解决方案 杨先声指出,当前机器人感知的主要瓶颈在于物理层面的限制。传统方案如双目结构光、ToF(飞行时间)等 3D 相机存在三大缺陷:
- 间接测量受限:能力受环境光变化影响大。
- 分辨率低且不对齐:无法实现 RGB-D 的像素级对齐。
- 传感器硬件缺陷:存在无法克服的炫光、精度衰减等问题(CIS 图像传感器问题)。
相比之下,速腾聚创采用激光雷达技术,通过提升线数(从传统的 16/32 线提升至几百甚至上千线)和集成 RGB 信息,实现了从“空间定位”到“精细感知”的跨越。这种高线数激光雷达不仅能还原环境的三维形态,还能提供色彩纹理信息,从而降低将真实世界映射到仿真环境的数据采集成本。
2. 技术路线:SPAD-SoC 全栈自研 速腾聚创的技术基石是其自研的 SPAD-SoC(单光子雪崩二极管-系统级芯片)数字化架构。
- 集成度优势:相比传统的 SiPM(硅光电倍增管),SPAD 技术更容易实现高线数(几百至几千线),在性能维度上具有代差优势。
- 全链路壁垒:从接收芯片、发射驱动到 SOC 芯片设计及流片,速腾聚创实现了全栈自研。这一全链路的打通构成了其核心竞争壁垒。
- 算力优化:传统双目方案需要大量算力反解深度信息,而速腾聚创的 RGB-D 融合方案直接输出深度信息,无需解析过程,从而节省了后端算力,提升了帧率并降低了延迟,有利于 VLA 模型的性能提升和末端控制。
3. “看得见、看得远、看得稳、看得全” 杨先声用通俗的语言概括了技术演进的目标:
- 看得见:从低线数导航雷达进化到高线数精细感知雷达。
- 看得远/稳/全:通过底层融合 RGB 信息,用单一传感器解决所有空间环境感知需求,确保在复杂开放环境中的鲁棒性。
关键要点
- 物理层面对齐:新架构的最大突破在于深度与 RGB 在物理底层天然对齐,消除了后期算法校准的需求,提升了精度、可靠性和实时性。
- 打破“不可能三角”:试图在稳定性、探测距离和感知精度之间找到平衡点,解决传统 3D 相机在复杂环境下不稳定、测距范围短(通常仅一米左右)的问题。
- 毫米级精度需求:与自动驾驶在百米级距离上容忍厘米级误差不同,机器人需要在近距离(如操作物体)实现毫米级的深度感知,这对传感器提出了更高要求。
- 算力与效率双优:直接输出深度信息而非依赖后端反解,大幅降低了端侧处理信号的算力要求,同时节省了存储空间,提升了数据采样的效率和质量。
- 触觉是下一挑战:视觉感知趋于成熟后,触觉将成为新的瓶颈。触觉传感器面临成本高、可靠性差、耐用性不足以及对材质/温度敏感等问题,比非接触式的视觉更难突破。
- 纯视觉的局限性:杨先声认为机器人不存在真正的“纯视觉”概念,因为人类的空间感知也是立体且多维的。纯视觉方案在复杂环境中难以兼顾高效与可靠,高精度空间感知是精细操作的前提。
- 行业协同进步:具身智能比自动驾驶维度更高、更复杂,上游传感器厂商与下游机器人公司将共同推动技术进步,而非简单的路径依赖。
意义与影响
速腾聚创提出的这一视觉感知架构,标志着具身智能硬件从“可用”向“好用”的关键转折。
首先,它解决了物理 AI 落地中的“数据质量”难题。高质量的空间数据(带色彩纹理的 RGB-D 数据)是训练机器人泛化能力的基础。通过提供高精度、高鲁棒性的传感器,速腾聚创降低了机器人公司在仿真环境搭建和数据标注上的成本,加速了物理 AI 的进化进程。
其次,该方案通过底层硬件创新优化了算法效率。将深度计算前置到传感器端,减轻了后端 VLA 模型的算力负担,使得机器人能够以更低的延迟进行实时感知决策,这对于需要快速反应的精细操作至关重要。
最后,这一技术路线的确立,可能重塑具身智能的传感器标准。随着 SPAD 技术的高集成度和高线数优势显现,传统双目或 ToF 方案在高端机器人领域的市场份额可能受到挤压。同时,这也预示着行业焦点将从单一的视觉感知,逐步转向视觉与触觉等多模态感知的深度融合,推动机器人向更接近人类感知能力的方向演进。
