技术博客arXiv cs.CL·3 小时前

可扩展分层注意力Transformer用于长对话多轮越狱检测

原标题：Scalable Hierarchical Attention Transformers for Multi-Turn Jailbreak Detection in Long Conversations

速览

针对多轮越狱通过渐进式升级和角色操控逃避检测的问题，研究将其视为对话级分类任务。提出一种高效的分层检测器，避免昂贵的长上下文拼接，同时保留跨轮次推理能力。在包含14038个对话的基准测试中，该方法F1值达0.9394，显著优于最强基线Claude Opus 4.7，并大幅降低误报率。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）