构建程序推理评估数据集:平衡自然性、依据性与多跳覆盖
原标题:Constructing Evaluation Datasets for Procedural Reasoning: Balancing Naturalness, Grounding, and Multi-Hop Coverage
速览
该研究探讨了基于任务-方法-知识(TMK)的三种问题生成策略对AI辅助学习系统中程序推理评估数据集质量的影响。研究引入了一种基于闭集证据单元的接地验证框架,用于衡量答案的支持度、问题的自包含性及多跳推理覆盖度。实验结果显示,严格TMK生成在数据质量和接地性上表现最佳,而仅依赖转录本或混合策略则各有优劣,表明需显式验证以确保评估数据集的可靠性。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
