AI法律引用幻觉检测基准:GPT-5表现最佳但仍存局限
原标题:Who Checks the Citations? Benchmarking Legal Hallucination Detection
速览
针对AI在法律文书中频繁编造引用的问题,本研究提出法律引用幻觉分类法并构建包含1300个片段的数据集。基准测试显示,GPT-5在代理模式下召回率达82.8%,但所有模型在细微错误类别上仍表现不佳。此外,代理验证资源密集且受限于信息访问权限,这引发了关于公平性的政策担忧。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
