← 返回信息流
技术博客arXiv cs.AI·3 小时前

Revealing Safety-Critical Scenarios for UTM via Transformer

AI 深度解读

背景

随着无人机系统(UAS)在城市空域和物流等领域的广泛应用,远程协调和管理多架航空器的需求日益迫切。无人交通管理(Unmanned Traffic Management, UTM)系统作为云平台应运而生,旨在实现空域资源的数字化调度与协同。然而,UTM 系统本质上属于安全关键(Safety-Critical)系统,任何微小的逻辑漏洞或边缘场景失效,都可能引发严重的碰撞或坠毁事故。

在传统的系统验证中,测试往往依赖专家经验或预定义的规则。但 UTM 系统具备自愈(self-healing)能力,这种容错机制虽然提升了日常运行的鲁棒性,却也带来了副作用:即关键故障被掩盖,呈现出极端的“长尾效应”(long-tail effect)。这意味着,真正致命的安全隐患极少在常规测试中浮出水面,且由于缺乏明确的奖励信号(reward signals),传统的自动化测试方法难以高效地“挖掘”出这些潜藏的致命漏洞。

核心内容

针对上述痛点,本文提出了一种基于 Transformer 的强化学习(RL)框架,旨在自动化地揭示 UTM 系统中的安全关键场景。

该研究的核心创新在于将“UTM 漏洞发现”重新定义为一个序列建模问题。Transformer 架构天然具备处理长序列依赖的能力,其注意力机制(attention mechanisms)能够直接建模系统状态之间的复杂关联,从而精准预测出能够触发系统故障的最优动作序列。

该框架主要由三个核心部分构成:

  1. 策略模型(Policy Model):作为大脑,负责生成极具针对性的测试场景,主动探索系统的薄弱环节。
  2. 动作采样器(Action Sampler):作为护栏,确保生成的测试动作符合现实空域的物理与逻辑约束,避免产生无意义的测试输入。
  3. 基于风险的奖励函数(Risk-based Reward Function):解决传统测试中奖励信号缺失的问题。该函数引导智能体向“高风险”区域探索,专门捕捉那些发生概率极低但破坏性极大的长尾边缘案例。

在长达 700 小时的仿真测试中,该框架的表现大幅超越了传统方法。与专家指导的测试相比,其漏洞发现效率提升了 8 倍,并且成功捕获了以往传统方法完全遗漏的关键边缘案例。

关键要点

  • 问题重构:将 UTM 安全测试从传统的规则驱动转化为基于 Transformer 的序列建模问题,利用注意力机制捕捉状态间依赖。
  • 长尾效应破局:针对 UTM 自愈能力导致的关键故障隐藏问题,引入基于风险的奖励函数,专门挖掘低概率、高危害的长尾场景。
  • 双组件架构:Policy Model 负责生成攻击/测试场景,Action Sampler 负责施加领域约束,两者结合保证了测试的有效性与现实合理性。
  • 显著提效:实验证明该方法在仿真中将漏洞发现效率提升了 8 倍,且能发现传统专家方法无法察觉的边缘案例。

意义与影响

本文的研究为复杂安全关键系统的自动化验证开辟了全新路径。它证明了 Transformer 与强化学习结合在系统级安全测试中的巨大潜力,不再依赖专家穷举,而是让 AI 主动“思考”系统如何失效。

对于低空经济和城市空中交通(UAM)而言,这一框架具有极高的落地价值。在 UTM 系统真正大规模部署

查看原文 →arxiv.org