Scenario Generation for Testing of Autonomous Driving Systems Using Real-World Failure Records
AI 深度解读
背景
随着自动驾驶系统(ADS)技术的快速发展,确保其在真实道路上的安全行为变得至关重要。在车辆正式上路部署之前,进行充分的测试和失效发现是不可或缺的环节。然而,当前主流的测试方法面临着明显的瓶颈:一方面,基于仿真的测试方法大多依赖数学模型来高效搜索最优场景,但往往假设场景表示是固定的,难以覆盖现实世界中复杂多变的边缘情况;另一方面,真实世界的测试则需要投入大量人工精力去设计场景模板,这些模板需要包含车辆运动、地图类型等多种要素,成本高昂且效率低下。
在此背景下,自动驾驶系统在历史运行中积累的失效记录成为了一座被忽视的“金矿”。这些记录真实反映了现实世界中导致系统出错的工况,是提取高价值测试场景的可靠来源。如何高效地利用这些自然语言记录,自动化地生成可用于仿真测试的场景,成为提升 ADS 测试效率和覆盖度的关键。
核心内容
本文提出了一种基于真实世界失效记录的自动驾驶系统场景生成流水线。该研究的核心在于利用自然语言格式的历史失效记录中所蕴含的分类和上下文信息,来自动生成用于仿真测试的场景。
具体而言,该方法采用了基于大语言模型(LLM)的模块化合成场景生成架构。这种模块化的设计使得生成的场景能够兼容并适配给定系统的特定测试约束,确保了生成场景的可用性和针对性。
为了验证方法的有效性,研究人员将这一流水线应用于 MetaDrive 仿真器,并使用了美国国家公路交通安全管理局(NHTSA)的 ADS 碰撞记录作为数据源。实验结果表明,该方法能够准确且多样化地生成测试场景。生成的场景组合涵盖了 4 种道路类型、3 种非自车运动类型,并且成功包含了施工区等道路异常情况。
更重要的是,这些生成的场景不仅严格符合提供的测试条件,而且在极其有限的测试预算(仅 20 个场景)内,成功揭示了被测系统“有趣的失效模式”。这证明该方法能够从真实事故数据中提炼出高价值的测试用例,以极小的测试成本暴露系统潜在的安全隐患。该研究的代码已经开源,便于社区复现与进一步研究。
关键要点
- 数据驱动场景生成:利用自然语言格式的真实世界历史失效记录作为数据源,替代传统的人工设计模板或纯数学模型搜索,使测试场景更贴近真实风险。
- 基于 LLM 的模块化流水线:采用大语言模型(LLM)进行模块化合成,提取记录中的分类和上下文信息,自动生成测试场景。
- 测试约束兼容:生成的场景能够适配特定被测系统的测试约束,确保场景在目标仿真或测试环境中的可行性。
- 高多样性与准确性:在 MetaDrive 仿真器上的实验证明,方法能生成涵盖 4 种道路类型、3 种非自车运动及施工区异常的多样化场景,且与真实记录保持一致。
- 小预算高效发现缺陷:在仅 20 个场景的有限测试预算下,成功暴露了系统的潜在失效模式,证明了该方法在测试效率上的显著优势。
意义与影响
本文的研究为自动驾驶系统的测试验证提供了一种极具前景的新范式。首先,它
