技术博客arXiv cs.AI·3 小时前

AutoMine方案在AV2场景挖掘挑战中表现优异

原标题：AutoMine Solution for AV2 2026 Scenario Mining Challenge

速览

针对自动驾驶数据驱动评估需求，研究提出基于大语言模型和视觉语言模型的AutoMine场景挖掘方法。该方法通过语义保持的提示增强、结合轨迹原子函数与视觉线索处理感知噪声，并利用真实日志执行反馈优化生成代码。在CVPR 2026 Argoverse 2场景挖掘竞赛中，AutoMine取得了36.38的HOTA-Temporal得分和77.21的Timestamp BA得分。

AI 深度解读

AutoMine：基于大模型与视觉语言模型的自动驾驶场景挖掘解决方案

背景

随着自动驾驶系统（Autonomous Driving Systems, ADS）的快速发展，数据驱动的方法已成为提升系统性能的关键。然而，从海量驾驶日志（Driving Logs）中挖掘出具有高价值、安全关键且对规划决策相关的场景，是一项极具挑战性的任务。传统的场景挖掘方法往往难以平衡语义理解的深度与视觉感知的鲁棒性，特别是在处理开放世界中的视觉线索和感知噪声时，容易受到限制。

为了推动这一领域的发展，CVPR 2026 举办了 Argoverse 2 场景挖掘竞赛（Argoverse 2 Scenario Mining Competition）。该竞赛旨在评估从大规模数据中自动提取复杂、高风险驾驶场景的能力。在此背景下，研究团队提出了 AutoMine，一种基于大语言模型（LLMs）和视觉语言模型（VLMs）的鲁棒自我优化场景挖掘方法，旨在解决现有技术在提示敏感性、感知噪声处理及代码生成准确性方面的不足。

核心内容

AutoMine 的核心创新在于构建了一个闭环的自我优化流程，结合了语义理解、视觉感知和代码执行反馈。其工作流程和技术细节如下：

语义保持的提示增强（Semantics-Preserving Prompt Augmentation）：针对 LLM 对提示词（Prompts）高度敏感的问题，AutoMine 引入了语义保持的提示增强机制。通过在不改变原始语义意图的前提下，对提示词进行多样化重构和增强，显著降低了模型对特定提示格式的依赖，提高了场景挖掘的稳定性和泛化能力。
混合功能函数设计（Hybrid Functional Design）：为了应对复杂的驾驶环境，AutoMine 结合了两种类型的功能函数：
- 鲁棒轨迹原子函数（Robust Trajectory Atomic Functions）：用于处理结构化、可量化的轨迹数据，确保基础运动逻辑的准确性。
- 基于 VLM 的功能函数（VLM-based Functions）：利用视觉语言模型处理非结构化的视觉输入，捕捉开放世界中的视觉线索（Open-world Visual Cues），如交通标志、行人行为、道路施工等，从而有效缓解感知噪声带来的干扰。
基于执行反馈的代码精炼（Code Refinement via Execution Feedback）： AutoMine 不仅仅依赖静态分析，而是通过在实际驾驶日志上执行生成的代码，获取执行反馈。如果代码执行结果与预期场景不符或出现异常，系统会利用这些反馈信息自动修正和优化生成的代码。这种“生成-执行-反馈-修正”的闭环机制，确保了挖掘出的场景既符合逻辑又具备真实数据的支撑。
竞赛表现：在 CVPR 2026 的 Argoverse 2 场景挖掘竞赛中，AutoMine 展现了卓越的性能。其最终得分如下：
- HOTA-Temporal 得分：36.38
- Timestamp BA 得分：77.21 这些指标证明了 AutoMine 在时序场景匹配和关键时间点识别上的高精度与高鲁棒性。

关键要点

技术架构融合：AutoMine 创造性地结合了 LLM 的语义推理能力和 VLM 的视觉感知能力，解决了单一模态在处理复杂驾驶场景时的局限性。
抗敏感性设计：通过语义保持的提示增强技术，有效降低了 LLM 对提示词微小变化的敏感度，提升了系统在实际应用中的稳定性。
闭环自我优化：引入基于真实日志执行反馈的代码精炼机制，实现了从“静态生成”到“动态验证与修正”的转变，显著提高了挖掘场景的准确性。
噪声鲁棒性：利用 VLM 处理开放世界视觉线索，并结合鲁棒轨迹原子函数，使系统能够有效抵抗感知噪声，适用于真实世界中不完美的数据环境。
竞赛验证：在 CVPR 2026 Argoverse 2 场景挖掘竞赛中取得优异成绩（HOTA-Temporal 36.38, Timestamp BA 77.21），验证了该方法在工业级场景挖掘任务中的有效性。

意义与影响

AutoMine 的提出对自动驾驶数据闭环建设具有重要的理论和实践意义：

提升数据利用效率：通过自动化、智能化的场景挖掘，AutoMine 能够从海量驾驶日志中快速筛选出高价值、高风险的长尾场景（Long-tail Scenarios），大幅减少人工标注和筛选的成本，加速自动驾驶模型的迭代训练。
增强系统安全性：安全关键场景的精准挖掘有助于发现自动驾驶系统在极端或边缘情况下的潜在缺陷，从而针对性地进行优化，提升整体系统的安全冗余。
推动多模态大模型应用：AutoMine 展示了 LLM 和 VLM 在自动驾驶垂直领域的协同潜力，为后续研究提供了“语义+视觉+代码执行”的多模态融合范式参考。
标准化评估基准：其在 Argoverse 2 竞赛中的优异表现，为行业提供了一套可量化、可复现的场景挖掘评估基准，有助于推动自动驾驶场景挖掘技术的标准化发展。

总之，AutoMine 不仅是一个高效的工具，更代表了一种基于大模型驱动、具备自我进化能力的自动驾驶数据工程新范式。

查看原文 →arxiv.org