评估谎言检测器:模型规模与信念验证
原标题:"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms
速览
研究指出,现有的大模型谎言检测器在模型确实持有相反信念的场景下往往失效,导致过往检测结果难以解释。团队构建了13个经过信念验证的推理模型生物及多样化欺骗测试集,评估了四种检测器。结果显示,尽管检测器性能随模型规模提升,但基于激活和日志概率的方法在验证场景下表现骤降,仅思维链法官保持较高准确率。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
