可扩展分层注意力Transformer用于长对话多轮越狱检测
原标题:Scalable Hierarchical Attention Transformers for Multi-Turn Jailbreak Detection in Long Conversations
速览
针对多轮越狱通过渐进式升级和角色操控逃避检测的问题,研究将其视为对话级分类任务。提出一种高效的分层检测器,避免昂贵的长上下文拼接,同时保留跨轮次推理能力。在包含14038个对话的基准测试中,该方法F1值达0.9394,显著优于最强基线Claude Opus 4.7,并大幅降低误报率。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
