← 返回信息流
技术博客arXiv cs.CL·4 小时前

科学数据微调反增幻觉:多领域大模型事实性评估

原标题:Finetuning with Scientific Data Increases Hallucinations: A Multi-domain Factuality Evaluation of LLMs

速览

论文提出SciFactCheck基准,评估18个大模型在五个科学领域的表现。结果显示,科学微调模型在所有幻觉类型上事实可靠性均下降,且呈现内部不自信但语言更笃定的矛盾现象。当前事实核查工具与专家判断一致性有限,挑战了领域微调方法。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org