SCOPE框架:通过序列共形探测提升大模型服务对OOD输入的可靠拒绝
原标题:SCOPE: Sequential Conformal Probing for Reliable OOD Rejection in LLM Services
速览
针对大语言模型服务中分布外(OOD)输入过滤难题,现有检测器多依赖最终输出且缺乏理论保证。本文提出SCOPE框架,通过选择可读隐藏层、构建共形门控及利用鞅过程验证,实现对服务边界证据的持续认证。实验表明,该方法在多模型和边界条件下均优于标准检测器,并揭示了OOD边界在隐藏空间的几何特征。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
