速腾聚创杨先声:机器人通用智能需先解决高精度深度感知
速览
速腾聚创副总裁杨先声在ICRA 2026展示全新视觉感知架构,通过底层融合实现深度与RGB天然对齐,无需后期校准。该方案旨在解决机器人毫米级深度感知痛点,打破稳定、距离、精度的不可能三角,提升物理AI进化速度。
AI 深度解读
背景
在 ICRA 2026(国际机器人与自动化会议)上,全球具身智能公司纷纷展示 Demo,试图通过大模型和 VLA(视觉-语言-动作模型)展示通用智能的曙光。然而,行业普遍忽视了一个核心痛点:机器人缺乏真正好用的“眼睛”。
尽管软件算法在不断进步,但机器人对三维世界的感知精度、操作精细度以及实时响应速度仍远远落后于人类。为了弥补硬件传感器的缺陷,企业不得不投入大量资源搭建仿真环境、采集标注数据,并依靠算法去“猜测”深度信息。这种“用软件填硬件坑”的模式,本质上是制约物理 AI(Physical AI)进化的瓶颈。
在此背景下,速腾聚创(RoboSense)副总裁杨先声在 ICRA 2026 上展示了一套面向机器人的全新视觉感知架构。该架构旨在打破传统 3D 相机在“稳定、距离、精度”上的不可能三角,通过底层硬件创新解决机器人感知的根本问题。
核心内容
速腾聚创提出的新视觉感知架构,其核心突破在于物理层面的原生融合。与行业普遍采用的“先分别采集 RGB 和深度信息,后通过算法进行融合”的方案不同,该架构在物理底层就实现了深度探测与 RGB 信息的天然对齐。这意味着深度信息与颜色信息无需后期复杂的校准处理,即可直接输出给后端系统。
1. 行业痛点:现有感知方案的局限性
杨先声指出,当前机器人感知能力受限,主要源于现有 3D 传感器(如双目结构光、ToF)在物理层面的三大缺陷:
- 环境光限制:属于间接测量,能力受环境光变化影响大,稳定性差。
- 分辨率与对齐问题:分辨率低,且无法做到 RGB 与深度信息的像素级对齐。
- 传感器硬件缺陷:存在 CIS(图像传感器)固有的炫光、精度衰减等问题。
此外,传统方案(如双目视觉)虽然成本低,但需要大量算力来反解深度信息,导致高帧率和低时延难以实现,严重影响机器人末端控制。而自动驾驶领域常用的激光雷达,虽然在长距离和大空间上表现优异(如每 100 米误差仅 5-10 厘米),但机器人需要在近距离(约 1 米内)实现毫米级的深度感知精度,现有方案难以兼顾。
2. 技术路径:SPAD-SoC 数字化架构
速腾聚创采用 SPAD-SoC(单光子雪崩二极管-系统级芯片)数字化架构,这是其技术路线的核心优势:
- 高集成度与高分辨率:相比传统的 SiPM 技术,SPAD 技术更容易实现几百线甚至上千线的高线数激光雷达,从而提供高密度的点云数据。
- 全栈自研壁垒:从接收芯片、发射驱动到 SOC 芯片,速腾聚创实现了全链路自研。这种从芯片设计、流片到系统架构优化的全栈能力,构成了两年的技术代差优势。
- RGB-D 原生融合:通过将高分辨率激光雷达与 RGB 信息在底层融合,传感器可以直接输出带有色彩纹理的完整立体空间信息。
3. “看得见、看得远、看得稳、看得全”
杨先声用通俗语言概括了新架构解决的技术问题:
- 看得见:从低线数(16/32 线)仅用于导航,进化到高线数(几百/上千线)实现精细感知和环境三维还原。
- 看得全:单一传感器即可解决空间环境感知的全部信息,无需多传感器后期融合。
- 算力优化:由于深度信息在传感器端已直接计算完成,无需后端进行复杂的深度反解,从而节省了算力,提升了帧率,降低了延迟,有利于 VLA 模型的性能和末端控制。
4. 数据质量与仿真训练
高质量的空间数据是机器人训练的关键。纯视觉数据在鲁棒性和精度上限上存在不足,难以满足早期训练和研究的需求。速腾聚创的方案通过提供高精度的三维感知数据(带色彩纹理),大幅降低了将真实世界映射到仿真环境的工作量和成本,提升了训练数据的质量。
关键要点
- 架构创新:速腾聚创推出了在物理层面实现深度与 RGB 天然对齐的全新视觉感知架构,无需后期算法校准,直接输出对齐数据。
- 打破不可能三角:旨在解决传统 3D 相机在稳定性、探测距离和测量精度之间难以兼顾的问题,特别是针对机器人所需的近距离毫米级精度。
- SPAD 技术优势:采用 SPAD-SoC 数字化架构,具备高集成度,可实现数百至数千线的高分辨率扫描,相比友商拥有约两年的芯片代差优势。
- 全栈自研壁垒:从接收芯片、发射驱动到 SOC 芯片及系统架构均实现全栈自研,形成了从芯片设计到系统优化的完整技术壁垒。
- 算力与效率提升:传感器端直接计算深度信息,避免了后端复杂的深度反解过程,显著节省算力、存储空间,并提升帧率、降低延迟,利于机器人实时控制。
- 数据价值:解决了纯视觉数据在精度和鲁棒性上的不足,为机器人训练和仿真环境构建提供了高质量、带色彩纹理的三维空间数据,降低了数据采集中“真实世界到仿真环境”的映射成本。
- 未来趋势:
- 视觉收敛:随着 RGB-D 方案成熟,机器人可能只需一双“眼睛”即可满足空间感知需求。
- 触觉挑战:相比非接触式的视觉,触觉传感器因涉及材料摩擦、可靠性及成本问题,短期内更难达到新的高度。
- 纯视觉的局限:在复杂环境中,纯视觉无法同时保证高效与可靠,高精度空间感知是操作类机器人的刚需。
意义与影响
速腾聚创在 ICRA 2026 上展示的这套新架构,标志着机器人感知技术从“算法补偿硬件缺陷”向“硬件原生赋能智能”的转变。
首先,提升了物理 AI 的进化速度。通过提供高精度、高实时性的原生 RGB-D 数据,机器人能够更准确地理解三维世界,减少了对大量试错训练和复杂算法补偿的依赖,从而加速了从感知到决策、控制的闭环效率。
其次,降低了具身智能的开发门槛。高质量传感器数据的获取和仿真环境的构建曾是行业痛点。新方案通过单一传感器提供完整信息,大幅降低了数据采集和仿真映射的成本,使得更多企业能够以较低成本获取训练机器人所需的高质量空间数据。
最后,明确了传感器技术的发展方向。杨先声关于“纯视觉在复杂操作中不可靠”的观点,以及强调高精度空间感知的必要性,为行业提供了重要的技术路线参考。随着 SPAD 等新技术的成熟,激光雷达与视觉的深度融合将成为具身智能感知的主流形态,推动机器人从“能看”向“看得准、看得稳”迈进,为通用智能的落地奠定坚实的物理感知基础。
