AI 资讯雷峰网·17 小时前

速腾聚创杨先声：机器人通用智能需先解决高精度深度感知

原标题：对话速腾聚创杨先声：机器人的通用智能，先从一双「不骗人」的眼睛开始 | ICRA 2026

速览

速腾聚创副总裁杨先声在ICRA 2026提出全新视觉感知架构，通过物理层面实现深度与RGB天然对齐，无需后期校准。该方案旨在解决机器人感知不准、精度受限等痛点，打破稳定、距离、精度的不可能三角。此举将大幅提升机器人训练数据质量与实时感知能力，加速物理AI进化。

AI 深度解读

背景

在 ICRA 2026（国际机器人与自动化会议）期间，全球具身智能（Embodied AI）公司纷纷展示其最新进展，但行业普遍面临一个被忽视的核心痛点：机器人缺乏真正好用的“眼睛”。尽管大模型和 VLA（Vision-Language-Action）模型带来了通用智能的曙光，但在落地执行层面，机器人因无法准确感知三维世界，导致精细操作能力不足、速度远低于人类。

为了弥补硬件传感器的缺陷，业界往往投入大量资源构建仿真环境、采集标注数据，试图通过算法“猜测”深度信息。这种“用软件填硬件坑”的做法本质上是低效的。在此背景下，速腾聚创（RoboSense）副总裁杨先声在 ICRA 上提出了一套全新的视觉感知架构，旨在从物理层面解决深度与 RGB 信息对齐的问题，打破传统 3D 相机在稳定性、距离和精度上的“不可能三角”。

核心内容

速腾聚创此次提出的核心创新在于其底层架构的重构。与行业普遍采用的“先分别采集、后算法融合”方案不同，该新架构在物理层面实现了深度探测与 RGB 信息的天然对齐。这意味着深度信息与颜色信息无需后期复杂的校准或算法处理，即可直接输出给后端系统。

1. 感知痛点与解决方案 杨先声指出，当前机器人感知的主要瓶颈在于物理层面的限制。传统方案如双目结构光、ToF（飞行时间）等 3D 相机存在三大缺陷：

间接测量受限：能力受环境光变化影响大。
分辨率低且不对齐：无法实现 RGB-D 的像素级对齐。
传感器硬件缺陷：存在无法克服的炫光、精度衰减等问题（CIS 图像传感器问题）。

相比之下，速腾聚创采用激光雷达技术，通过提升线数（从传统的 16/32 线提升至几百甚至上千线）和集成 RGB 信息，实现了从“空间定位”到“精细感知”的跨越。这种高线数激光雷达不仅能还原环境的三维形态，还能提供色彩纹理信息，从而降低将真实世界映射到仿真环境的数据采集成本。

2. 技术路线：SPAD-SoC 全栈自研 速腾聚创的技术基石是其自研的 SPAD-SoC（单光子雪崩二极管-系统级芯片）数字化架构。

集成度优势：相比传统的 SiPM（硅光电倍增管），SPAD 技术更容易实现高线数（几百至几千线），在性能维度上具有代差优势。
全链路壁垒：从接收芯片、发射驱动到 SOC 芯片设计及流片，速腾聚创实现了全栈自研。这一全链路的打通构成了其核心竞争壁垒。
算力优化：传统双目方案需要大量算力反解深度信息，而速腾聚创的 RGB-D 融合方案直接输出深度信息，无需解析过程，从而节省了后端算力，提升了帧率并降低了延迟，有利于 VLA 模型的性能提升和末端控制。

3. “看得见、看得远、看得稳、看得全” 杨先声用通俗的语言概括了技术演进的目标：

看得见：从低线数导航雷达进化到高线数精细感知雷达。
看得远/稳/全：通过底层融合 RGB 信息，用单一传感器解决所有空间环境感知需求，确保在复杂开放环境中的鲁棒性。

关键要点

物理层面对齐：新架构的最大突破在于深度与 RGB 在物理底层天然对齐，消除了后期算法校准的需求，提升了精度、可靠性和实时性。
打破“不可能三角”：试图在稳定性、探测距离和感知精度之间找到平衡点，解决传统 3D 相机在复杂环境下不稳定、测距范围短（通常仅一米左右）的问题。
毫米级精度需求：与自动驾驶在百米级距离上容忍厘米级误差不同，机器人需要在近距离（如操作物体）实现毫米级的深度感知，这对传感器提出了更高要求。
算力与效率双优：直接输出深度信息而非依赖后端反解，大幅降低了端侧处理信号的算力要求，同时节省了存储空间，提升了数据采样的效率和质量。
触觉是下一挑战：视觉感知趋于成熟后，触觉将成为新的瓶颈。触觉传感器面临成本高、可靠性差、耐用性不足以及对材质/温度敏感等问题，比非接触式的视觉更难突破。
纯视觉的局限性：杨先声认为机器人不存在真正的“纯视觉”概念，因为人类的空间感知也是立体且多维的。纯视觉方案在复杂环境中难以兼顾高效与可靠，高精度空间感知是精细操作的前提。
行业协同进步：具身智能比自动驾驶维度更高、更复杂，上游传感器厂商与下游机器人公司将共同推动技术进步，而非简单的路径依赖。

意义与影响

速腾聚创提出的这一视觉感知架构，标志着具身智能硬件从“可用”向“好用”的关键转折。

首先，它解决了物理 AI 落地中的“数据质量”难题。高质量的空间数据（带色彩纹理的 RGB-D 数据）是训练机器人泛化能力的基础。通过提供高精度、高鲁棒性的传感器，速腾聚创降低了机器人公司在仿真环境搭建和数据标注上的成本，加速了物理 AI 的进化进程。

其次，该方案通过底层硬件创新优化了算法效率。将深度计算前置到传感器端，减轻了后端 VLA 模型的算力负担，使得机器人能够以更低的延迟进行实时感知决策，这对于需要快速反应的精细操作至关重要。

最后，这一技术路线的确立，可能重塑具身智能的传感器标准。随着 SPAD 技术的高集成度和高线数优势显现，传统双目或 ToF 方案在高端机器人领域的市场份额可能受到挤压。同时，这也预示着行业焦点将从单一的视觉感知，逐步转向视觉与触觉等多模态感知的深度融合，推动机器人向更接近人类感知能力的方向演进。

查看原文 →leiphone.com

速腾聚创杨先声：机器人通用智能需先解决高精度深度感知

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐