← 返回信息流
技术博客arXiv cs.AI·2 小时前

基于课程标准的LLM评分流水线助力高校入学考试备考

原标题:LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline

速览

该研究提出了一种基于课程标准的可配置LLM-as-Judge流水线,旨在支持高校入学考试的备考评估。系统通过整合教学大纲、认知要求及评分指南等权威素材,生成结构化评分标准并对学生作答进行打分。初步评估显示,该流水线评分结果与人类导师相当,且理由更具可追溯性,目前已集成至在线学习平台。

AI 深度解读

LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline 深度解读

背景

随着生成式人工智能(Generative AI)和大型语言模型(LLMs)在试题生成和自动化评估领域的广泛应用,教育界正面临从“辅助工具”向“核心评估引擎”转型的关键节点。然而,将 LLM 部署于高风险考试(high-stakes exams,如大学入学考试)的准备环节,其挑战远不止于简单的提示词工程(prompt engineering)。

在严肃的教育评估场景中,模型输出不能仅凭概率生成,必须系统地锚定(ground)在官方教育机构发布的授权课程材料(curriculum artefacts)和评分指南(marking guidelines)之上。现有的许多 LLM 评估方案往往缺乏这种严谨的课程对齐机制,导致评估结果在一致性、透明度和合规性上难以满足高标准考试的要求。

本文介绍了一种由学术机构与工业合作伙伴共同开发的、基于课程锚定的可配置 LLM-as-Judge 管道,旨在支持大学入学考试的备考评估。该方案试图解决的核心痛点是:如何让 AI 不仅“能打分”,而且“能依据官方标准、透明地解释打分逻辑”。

核心内容

该研究提出并实现了一个完整的、基于课程锚定的 LLM-as-Judge 管道,用于题目级别的自动评分。该系统的核心设计理念是将抽象的“课程意图”转化为具体的、可操作的数字资产,并通过分阶段的 LLM 工作流来执行评估。

1. 课程意图的操作化(Operationalising Curriculum Intent)

系统首先对官方课程材料进行结构化处理,将其转化为 LLM 可理解的上下文。这些授权材料包括:

  • 规定动词与学习成果:明确题目考查的认知层级(如“分析”、“评估” vs “回忆”)。
  • 表现等级描述符(Performance Band Descriptors):定义不同分数段对应的具体能力表现。
  • 术语表定义(Glossary Definitions):确保对学科专业术语的理解与官方标准一致。
  • 评分指南原则:提供评分的逻辑框架和常见错误处理规则。

2. 题目分析与上下文组装

在评估开始前,管道首先识别题目的关键属性:

  • 主题与子主题:确定题目所属的知识领域。
  • 认知需求(Cognitive Demand):判断题目要求学生具备的思维深度。

基于这些识别结果,系统从上述课程材料中组装出可验证的、授权的上下文信息,为后续的 LLM 判断提供坚实的依据。

3. 分阶段 LLM 工作流

该管道采用两阶段工作流,以确保评分的严谨性和可追溯性:

  • 第一阶段:生成题目特定评分标准(Rubrics) LLM 首先根据题目属性和课程材料,生成结构化的评分标准。这一步旨在捕捉对“优秀表现”的结构化期望,明确哪些要素是得分的关键,哪些是扣分项。

  • 第二阶段:推导与评估评分准则 基于生成的评分标准,LLM 进一步推导出具体的评分准则,并据此对学生回答进行打分。这一过程不仅仅是给出一个分数,而是将分数分配与具体的评分准则紧密挂钩。

4. 系统集成与初步评估

该管道已集成到一个在线学习平台中。初步评估数据显示:

  • 评分一致性:LLM-as-Judge 的评分结果与人类辅导老师(human tutors)的评分具有可比性。
  • 可追溯性:与人类评分相比,LLM 提供的评分理由(justifications)更能直接追溯到授权的课程材料和评分标准,提高了透明度。
  • 运营数据:早期部署数据揭示了实际使用场景中的操作模式,包括人工覆盖(manual overrides)的频率和原因,为后续优化提供了依据。

关键要点

  • 超越提示词工程:高风险考试评估不能仅靠优化提示词,必须构建软件管道,将模型输出锚定在官方课程和评分指南上。
  • 课程材料结构化:将规定动词、学习成果、表现等级、术语表和评分原则转化为机器可读的结构化数据,是实现“课程锚定”的关键。
  • 两阶段评分机制:先生成题目特定的结构化评分标准(Rubrics),再基于此进行打分和理由生成,提升了评估的结构化和一致性。
  • 透明与可追溯:LLM 生成的评分理由能够直接链接到官方课程材料,解决了传统 AI 评分“黑盒”问题,增强了评估的透明度。
  • 人机协作验证:初步数据显示 AI 评分与人类专家评分相当,且在实际平台部署中,人工覆盖机制为系统提供了必要的纠错和安全网。

意义与影响

这项研究为 LLM 在教育评估领域的应用提供了一个新的范式:从“通用评估”转向“课程锚定评估”

  1. 提升评估的合规性与公信力:通过严格锚定官方课程材料,该管道使得 AI 评分结果更符合教育主管部门的要求,为 AI 参与高风险考试评估提供了可行的技术路径。
  2. 增强透明度与可解释性:相比传统 LLM 评分,该管道生成的评分理由更具可追溯性,有助于教师和学生理解评分逻辑,促进教学反馈的有效性。
  3. 规模化个性化反馈:结合在线学习平台,该管道能够大规模地为备考学生提供即时、标准一致的反馈,弥补人类教师资源有限的不足。
  4. 人机协作的新模式:研究展示了 AI 作为“初级评分员”与人类专家作为“审核员”(通过人工覆盖)的协作模式,这种混合智能模式可能是未来教育评估的主流形态。

总之,该工作不仅是一个技术实现,更是对教育评估中“标准”、“一致性”和“透明度”三大核心价值的重新定义,为 LLM 在严肃教育场景中的落地提供了重要的参考案例。

查看原文 →arxiv.org