技术博客arXiv cs.AI·3 小时前

Revealing Safety-Critical Scenarios for UTM via Transformer

AI 深度解读

背景

随着无人机系统（UAS）在城市空域和物流等领域的广泛应用，远程协调和管理多架航空器的需求日益迫切。无人交通管理（Unmanned Traffic Management, UTM）系统作为云平台应运而生，旨在实现空域资源的数字化调度与协同。然而，UTM 系统本质上属于安全关键（Safety-Critical）系统，任何微小的逻辑漏洞或边缘场景失效，都可能引发严重的碰撞或坠毁事故。

在传统的系统验证中，测试往往依赖专家经验或预定义的规则。但 UTM 系统具备自愈（self-healing）能力，这种容错机制虽然提升了日常运行的鲁棒性，却也带来了副作用：即关键故障被掩盖，呈现出极端的“长尾效应”（long-tail effect）。这意味着，真正致命的安全隐患极少在常规测试中浮出水面，且由于缺乏明确的奖励信号（reward signals），传统的自动化测试方法难以高效地“挖掘”出这些潜藏的致命漏洞。

核心内容

针对上述痛点，本文提出了一种基于 Transformer 的强化学习（RL）框架，旨在自动化地揭示 UTM 系统中的安全关键场景。

该研究的核心创新在于将“UTM 漏洞发现”重新定义为一个序列建模问题。Transformer 架构天然具备处理长序列依赖的能力，其注意力机制（attention mechanisms）能够直接建模系统状态之间的复杂关联，从而精准预测出能够触发系统故障的最优动作序列。

该框架主要由三个核心部分构成：

策略模型（Policy Model）：作为大脑，负责生成极具针对性的测试场景，主动探索系统的薄弱环节。
动作采样器（Action Sampler）：作为护栏，确保生成的测试动作符合现实空域的物理与逻辑约束，避免产生无意义的测试输入。
基于风险的奖励函数（Risk-based Reward Function）：解决传统测试中奖励信号缺失的问题。该函数引导智能体向“高风险”区域探索，专门捕捉那些发生概率极低但破坏性极大的长尾边缘案例。

在长达 700 小时的仿真测试中，该框架的表现大幅超越了传统方法。与专家指导的测试相比，其漏洞发现效率提升了 8 倍，并且成功捕获了以往传统方法完全遗漏的关键边缘案例。

关键要点

问题重构：将 UTM 安全测试从传统的规则驱动转化为基于 Transformer 的序列建模问题，利用注意力机制捕捉状态间依赖。
长尾效应破局：针对 UTM 自愈能力导致的关键故障隐藏问题，引入基于风险的奖励函数，专门挖掘低概率、高危害的长尾场景。
双组件架构：Policy Model 负责生成攻击/测试场景，Action Sampler 负责施加领域约束，两者结合保证了测试的有效性与现实合理性。
显著提效：实验证明该方法在仿真中将漏洞发现效率提升了 8 倍，且能发现传统专家方法无法察觉的边缘案例。

意义与影响

本文的研究为复杂安全关键系统的自动化验证开辟了全新路径。它证明了 Transformer 与强化学习结合在系统级安全测试中的巨大潜力，不再依赖专家穷举，而是让 AI 主动“思考”系统如何失效。

对于低空经济和城市空中交通（UAM）而言，这一框架具有极高的落地价值。在 UTM 系统真正大规模部署

查看原文 →arxiv.org

Revealing Safety-Critical Scenarios for UTM via Transformer

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐