智能体AI评估中攻击选择显著降低安全性
原标题:Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety
速览
研究指出,在智能体AI控制评估中,攻击者策略性地选择攻击时机比无差别攻击更难被察觉。通过在BashArena和LinuxArena两个环境中分解攻击决策,发现攻击开始和停止策略均大幅降低了测得的实证安全性。这表明现有控制评估可能产生过于乐观的安全估计,未来评估应纳入攻击选择以提供更真实的评估结果。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
