← 返回信息流
技术博客arXiv cs.CL·4 小时前

AI法律引用幻觉检测基准:GPT-5表现最佳但仍存局限

原标题:Who Checks the Citations? Benchmarking Legal Hallucination Detection

速览

针对AI在法律文书中频繁编造引用的问题,本研究提出法律引用幻觉分类法并构建包含1300个片段的数据集。基准测试显示,GPT-5在代理模式下召回率达82.8%,但所有模型在细微错误类别上仍表现不佳。此外,代理验证资源密集且受限于信息访问权限,这引发了关于公平性的政策担忧。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org