技术博客arXiv cs.CL·4 小时前

AI法律引用幻觉检测基准：GPT-5表现最佳但仍存局限

原标题：Who Checks the Citations? Benchmarking Legal Hallucination Detection

速览

针对AI在法律文书中频繁编造引用的问题，本研究提出法律引用幻觉分类法并构建包含1300个片段的数据集。基准测试显示，GPT-5在代理模式下召回率达82.8%，但所有模型在细微错误类别上仍表现不佳。此外，代理验证资源密集且受限于信息访问权限，这引发了关于公平性的政策担忧。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）