← 返回信息流
技术博客arXiv cs.CL·3 小时前

可扩展分层注意力Transformer用于长对话多轮越狱检测

原标题:Scalable Hierarchical Attention Transformers for Multi-Turn Jailbreak Detection in Long Conversations

速览

针对多轮越狱通过渐进式升级和角色操控逃避检测的问题,研究将其视为对话级分类任务。提出一种高效的分层检测器,避免昂贵的长上下文拼接,同时保留跨轮次推理能力。在包含14038个对话的基准测试中,该方法F1值达0.9394,显著优于最强基线Claude Opus 4.7,并大幅降低误报率。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org