技术博客arXiv cs.AI·4 小时前

构建程序推理评估数据集：平衡自然性、依据性与多跳覆盖

原标题：Constructing Evaluation Datasets for Procedural Reasoning: Balancing Naturalness, Grounding, and Multi-Hop Coverage

速览

该研究探讨了基于任务-方法-知识（TMK）的三种问题生成策略对AI辅助学习系统中程序推理评估数据集质量的影响。研究引入了一种基于闭集证据单元的接地验证框架，用于衡量答案的支持度、问题的自包含性及多跳推理覆盖度。实验结果显示，严格TMK生成在数据质量和接地性上表现最佳，而仅依赖转录本或混合策略则各有优劣，表明需显式验证以确保评估数据集的可靠性。

AI 深度解读

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）

查看原文 →arxiv.org

构建程序推理评估数据集：平衡自然性、依据性与多跳覆盖

速览

AI 深度解读

相关推荐