AI 资讯Hacker News·10 天前

利用手机级激光雷达实现拐角处视觉感知

原标题：Seeing Around Corners Using Smartphone-Grade Lidar

速览

研究人员成功利用手机级激光雷达实现了拐角处的视觉感知，即非视域成像技术。该突破证明了低成本传感器也能完成复杂的3D重建任务。这一进展有望推动自动驾驶和机器人技术在复杂环境中的广泛应用。

AI 深度解读

利用手机级激光雷达实现“拐角透视”

背景

激光雷达（Lidar）技术正逐渐赋予自动驾驶汽车、无人机、机器人以及智能手机以三维扫描能力。其工作原理类似于雷达使用无线电波：激光传感器向特定位置发射激光脉冲，并通过分析反射脉冲返回所需的时间来计算距离，从而生成该区域的三维地图。

长期以来，利用激光雷达实现“非视域成像”（Non-Line-of-Sight Imaging，即看到视线被遮挡的物体，如拐角后的物体）被视为一项仅限实验室环境的高精尖技术。早期的此类成像系统依赖极其专业的科学设备，成本通常在 50 万至 100 万美元之间，且设备庞大、昂贵，无法普及。

然而，随着单光子探测器等更高级传感器逐渐进入消费级硬件，麻省理工学院媒体实验室（MIT Media Lab）的研究人员发现，成本不足 100 美元的现成手机级激光雷达设备，实际上也能捕捉到微弱的拐角后信号。这项由 Siddharth Somasundaram 领导的研究，旨在解决消费级激光雷达信号噪声大、分辨率低以及运动模糊等挑战，从而将这一前沿技术推向大众化应用。

核心内容

技术突破：从“不可能”到“可行”

Siddharth Somasundaram 指出，虽然消费级激光雷达能够捕捉到拐角后的微弱信号，但这并不意味着它们能直接用于非视域成像。消费级设备出于眼部安全考虑，通常使用低功率激光，导致图像充满噪声；同时，其传感器分辨率较低，且相机或目标物体的移动会导致图像模糊。研究团队曾不确定是否真的能从中提取出有意义的成像数据。

为了克服这些挑战，研究团队没有尝试基于单张图片数据进行非视域成像，而是采用了一种多帧融合的策略。他们受到智能手机连拍技术（通过快速拍摄多张照片并合并以提高质量）以及合成孔径雷达（通过混合来自多个天线的信号以模拟大型天线的高质量成像）的启发，开发了能够跨测量值整合信息的算法。

“一旦我们开发出能够结合这些测量信息的算法，隐藏的信号就开始更加清晰地显现出来，”Somasundaram 解释道。

实验验证与系统表现

研究团队使用了一个便携式手机激光雷达系统进行实验。该系统仅拥有约 100 个像素，每个像素由一个激光发射器和一个单光子探测器组成。尽管硬件简陋，该系统成功实现了以下功能：

重建静态隐藏物体的 3D 图像。
追踪已知形状隐藏物体的 3D 运动。
定位自身：利用隐藏物体作为地标，精确定位激光雷达传感器的位置。这一能力有助于机器人在缺乏纹理的空间中保持方向感，解决其常见的定位难题。

值得注意的是，所有这些操作均无需专门的校准。Somasundaram 表示，最令人惊讶的是，这些消费级系统能够捕捉到拐角后的任何有用信号。“经过多次反弹后到达传感器的光量微乎其微，这些设备在设计之初从未考虑过这种成像方式。看到其中有足够的信息来重建和追踪隐藏物体，让我们感到非常兴奋。”

局限性与未来方向

研究团队也强调了该系统的局限性。Somasundaram 警告称，不要指望该系统能生成隐藏场景的完整摄影图像。目前，系统是从极其微弱的信号中恢复稀疏的几何和运动信息，这与手机拍摄的百万像素详细图像之间仍有巨大差距。

此外，该系统假设物体的形状和运动在帧与帧之间保持相对一致，从而允许将许多极弱的测量值合并为更强的信号。然而，这一假设在以下情况可能失效：

人类改变姿势。
物体被遮挡，导致其形状和运动看似改变。
激光雷达传感器本身发生突然移动。

针对未来工作，研究团队提出了两个主要方向：

减少算法对假设的依赖：通过改进物理模型、信号处理和机器学习方法，使系统能够适应更复杂的运动和场景动态，从而在现实、无约束的环境中实现更稳健的拐角感知。
硬件优化：目前的消费级激光雷达主要设计用于传统的视域成像和深度感知。如果未来的激光雷达硬件在设计时就同时考虑可见和隐藏场景的理解，通过提高传感器灵敏度、分辨率、扫描策略或光学设计，非视域性能将得到显著提升。

该研究的详细发现已于 5 月 20 日在线发表于《Nature》期刊。

关键要点

成本大幅降低：利用成本不足 100 美元的现成手机级激光雷达设备，即可实现此前需要 50 万至 100 万美元专业设备才能完成的非视域成像。
算法创新：通过借鉴智能手机连拍和合成孔径雷达的原理，将多帧微弱信号进行整合，成功从充满噪声的消费级数据中提取出隐藏物体的几何和运动信息。
实际应用潜力：
- 自动驾驶：在车辆进入直接视野前，检测拐角后的其他车辆、骑行者或行人，提升盲区路口的安全性。
- 机器人导航：帮助机器人在杂乱或部分遮挡的环境中导航，并在无纹理空间中通过隐藏物体作为地标进行定位。
技术现状：目前系统仅能恢复稀疏的几何和运动信息，无法生成高分辨率的完整图像；且依赖于物体形状和运动在帧间相对稳定的假设。
开源共享：研究人员已公开执行此类工作所需的代码，以促进技术的民主化和进一步应用开发。

意义与影响

这项研究的核心意义在于技术的民主化（Democratization）。正如 Siddharth Somasundaram 所言：“当像这样的技术变得触手可及时，人们往往会发现远超原始研究人员想象的应用场景。”

通过将非视域成像从昂贵的实验室设备转化为基于消费级硬件的解决方案，这项技术为自动驾驶、机器人技术和增强现实等领域开辟了新的大门。它不仅降低了技术门槛，还激发了社区对潜在应用的探索。随着算法对假设依赖的减少以及未来硬件设计的优化，这种“拐角透视”能力有望变得更加稳健，最终融入更广泛的日常科技产品中，提升安全性和环境感知能力。

查看原文 →spectrum.ieee.org