技术博客arXiv cs.CL·23 小时前

SEFORA：学生作文反馈语料库及LLM反馈评估框架

原标题：SEFORA: Student Essays with Feedback Corpus and LLM Feedback Evaluation Framework

速览

SEFORA是公开学生写作反馈语料库，收录564篇草稿与8240条教师inline反馈，覆盖多类学院写作体裁。UniMatch是参考式开源生成评估框架，通过分段、语义匹配与最优配对实现F1评分。研究显示74种配置中无一突破0.4 F1，模型在识别教师优先反馈及生成长度上均有短板，为LLM辅助教学提供真实基准。

AI 深度解读

背景

作文反馈是推动学生学习进步的最强动力之一，但大规模生成这类反馈工作量巨大且劳动密集。大型语言模型（LLM）为扩展写作支持提供了自然途径，然而两个关键障碍阻碍了这一路径：现有公开语料库难以捕捉讲师在真实课堂中实际提供的反馈方式，以及缺乏可靠方法评估生成的反馈是否与讲师所写内容一致。本文提出SEFORA语料库和UniMatch评估框架来解决这两个问题，为AI辅助作文教学和自动化反馈提供基础支持。

核心内容

SEFORA是一个公开的作文反馈语料库，它将讲师的内联反馈（inline feedback）与作文作业提示、评分标准、分数以及多草稿修订版本配对，涵盖多种大学写作体裁。整个语料库包含564个草稿和8240个讲师注解，这些数据反映了真实课堂中反馈的复杂性和多样性。

UniMatch是一个基于参考的开放生成式反馈评估框架。其工作原理是将生成的反馈分割成独立的“反馈单元”（feedback units），然后在讲师推导的标准下计算每个单元与参考反馈的语义对应程度，通过最优匹配（optimal matching）算法对齐这些单元，从而得到可解释的精确率（precision）、召回率（recall）和F1分数。

作者进行了74种实验配置，覆盖多种LLM模型。结果显示，无论采用何种模型和配置，最高F1值仅为0.4。这表明LLM在识别讲师实际优先考虑的反馈内容方面存在困难，并且随着模型生成的反馈数量增加，表现会进一步下降。

关键要点

SEFORA语料库包含564个草稿和8240个讲师注解，覆盖多种大学写作体裁，并提供了作业提示、评分标准、多草稿修订和内联反馈等完整配套信息。
UniMatch将反馈分割为独立单元，在讲师推导的标准下评估语义对应，通过最优匹配计算精确率、召回率和F1，输出结果高度可解释。
74种配置实验中，所有LLM模型的最高F1仅达0.4，表明模型难以精准捕捉讲师优先反馈，且生成量越多性能越差。
上述发现直接指出当前AI作文反馈系统存在“偏离讲师真实优先级”和“规模化缺陷”的核心问题。

意义与影响

SEFORA为研究者提供了首个公开的、贴近真实课堂的作文反馈语料库，推动了基于数据的AI作文教学研究，未来有望被广泛用于训练和微调反馈生成模型。UniMatch框架则为开放生成式任务（尤其是写作和教育反馈领域）提供了一个可靠的参考基评价标准，有效弥补了现有评估方法的空白，使研究者能够更系统地比较不同模型的反馈质量。

通过揭示LLM在作文反馈中的局限性，本文为后续开发更精准、更高效的AI写作支持工具指明了方向。研究成果已于2026年6月30日提交至arXiv cs.CL，预计将促进教育人工智能和自然语言处理领域的跨界合作，推动作文教学从人工主导转向智能辅助的新范式。

查看原文 →arxiv.org

SEFORA：学生作文反馈语料库及LLM反馈评估框架

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐