技术博客arXiv cs.AI·2 小时前

基于课程标准的LLM评分流水线助力高校入学考试备考

原标题：LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline

速览

该研究提出了一种基于课程标准的可配置LLM-as-Judge流水线，旨在支持高校入学考试的备考评估。系统通过整合教学大纲、认知要求及评分指南等权威素材，生成结构化评分标准并对学生作答进行打分。初步评估显示，该流水线评分结果与人类导师相当，且理由更具可追溯性，目前已集成至在线学习平台。

AI 深度解读

LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline 深度解读

背景

随着生成式人工智能（Generative AI）和大型语言模型（LLMs）在试题生成和自动化评估领域的广泛应用，教育界正面临从“辅助工具”向“核心评估引擎”转型的关键节点。然而，将 LLM 部署于高风险考试（high-stakes exams，如大学入学考试）的准备环节，其挑战远不止于简单的提示词工程（prompt engineering）。

在严肃的教育评估场景中，模型输出不能仅凭概率生成，必须系统地锚定（ground）在官方教育机构发布的授权课程材料（curriculum artefacts）和评分指南（marking guidelines）之上。现有的许多 LLM 评估方案往往缺乏这种严谨的课程对齐机制，导致评估结果在一致性、透明度和合规性上难以满足高标准考试的要求。

本文介绍了一种由学术机构与工业合作伙伴共同开发的、基于课程锚定的可配置 LLM-as-Judge 管道，旨在支持大学入学考试的备考评估。该方案试图解决的核心痛点是：如何让 AI 不仅“能打分”，而且“能依据官方标准、透明地解释打分逻辑”。

核心内容

该研究提出并实现了一个完整的、基于课程锚定的 LLM-as-Judge 管道，用于题目级别的自动评分。该系统的核心设计理念是将抽象的“课程意图”转化为具体的、可操作的数字资产，并通过分阶段的 LLM 工作流来执行评估。

1. 课程意图的操作化（Operationalising Curriculum Intent）

系统首先对官方课程材料进行结构化处理，将其转化为 LLM 可理解的上下文。这些授权材料包括：

规定动词与学习成果：明确题目考查的认知层级（如“分析”、“评估” vs “回忆”）。
表现等级描述符（Performance Band Descriptors）：定义不同分数段对应的具体能力表现。
术语表定义（Glossary Definitions）：确保对学科专业术语的理解与官方标准一致。
评分指南原则：提供评分的逻辑框架和常见错误处理规则。

2. 题目分析与上下文组装

在评估开始前，管道首先识别题目的关键属性：

主题与子主题：确定题目所属的知识领域。
认知需求（Cognitive Demand）：判断题目要求学生具备的思维深度。

基于这些识别结果，系统从上述课程材料中组装出可验证的、授权的上下文信息，为后续的 LLM 判断提供坚实的依据。

3. 分阶段 LLM 工作流

该管道采用两阶段工作流，以确保评分的严谨性和可追溯性：

第一阶段：生成题目特定评分标准（Rubrics） LLM 首先根据题目属性和课程材料，生成结构化的评分标准。这一步旨在捕捉对“优秀表现”的结构化期望，明确哪些要素是得分的关键，哪些是扣分项。
第二阶段：推导与评估评分准则 基于生成的评分标准，LLM 进一步推导出具体的评分准则，并据此对学生回答进行打分。这一过程不仅仅是给出一个分数，而是将分数分配与具体的评分准则紧密挂钩。

4. 系统集成与初步评估

该管道已集成到一个在线学习平台中。初步评估数据显示：

评分一致性：LLM-as-Judge 的评分结果与人类辅导老师（human tutors）的评分具有可比性。
可追溯性：与人类评分相比，LLM 提供的评分理由（justifications）更能直接追溯到授权的课程材料和评分标准，提高了透明度。
运营数据：早期部署数据揭示了实际使用场景中的操作模式，包括人工覆盖（manual overrides）的频率和原因，为后续优化提供了依据。

关键要点

超越提示词工程：高风险考试评估不能仅靠优化提示词，必须构建软件管道，将模型输出锚定在官方课程和评分指南上。
课程材料结构化：将规定动词、学习成果、表现等级、术语表和评分原则转化为机器可读的结构化数据，是实现“课程锚定”的关键。
两阶段评分机制：先生成题目特定的结构化评分标准（Rubrics），再基于此进行打分和理由生成，提升了评估的结构化和一致性。
透明与可追溯：LLM 生成的评分理由能够直接链接到官方课程材料，解决了传统 AI 评分“黑盒”问题，增强了评估的透明度。
人机协作验证：初步数据显示 AI 评分与人类专家评分相当，且在实际平台部署中，人工覆盖机制为系统提供了必要的纠错和安全网。

意义与影响

这项研究为 LLM 在教育评估领域的应用提供了一个新的范式：从“通用评估”转向“课程锚定评估”。

提升评估的合规性与公信力：通过严格锚定官方课程材料，该管道使得 AI 评分结果更符合教育主管部门的要求，为 AI 参与高风险考试评估提供了可行的技术路径。
增强透明度与可解释性：相比传统 LLM 评分，该管道生成的评分理由更具可追溯性，有助于教师和学生理解评分逻辑，促进教学反馈的有效性。
规模化个性化反馈：结合在线学习平台，该管道能够大规模地为备考学生提供即时、标准一致的反馈，弥补人类教师资源有限的不足。
人机协作的新模式：研究展示了 AI 作为“初级评分员”与人类专家作为“审核员”（通过人工覆盖）的协作模式，这种混合智能模式可能是未来教育评估的主流形态。

总之，该工作不仅是一个技术实现，更是对教育评估中“标准”、“一致性”和“透明度”三大核心价值的重新定义，为 LLM 在严肃教育场景中的落地提供了重要的参考案例。

查看原文 →arxiv.org