技术博客arXiv cs.CL·14 小时前

LLaMA顺序微调提升自动作文评分连贯性

原标题：The Order Matters: Sequential Fine-Tuning of LLaMA for Coherent Automated Essay Scoring

速览

针对自动作文评分中话语元素孤立处理的问题，研究对LLaMA-3.1-8B进行参数高效顺序微调。实验显示，按话语结构顺序训练能显著提升评分连贯性与准确率，效果超越独立训练及LLaMA-70B基线。这表明小模型通过课程学习设计，能以低成本实现与大模型相当的竞争力。

AI 深度解读

顺序至关重要：LLaMA 的序列化微调用于连贯的自动作文评分

背景

自动作文评分（Automated Essay Scoring, AES）系统旨在通过算法自动评估学生的写作质量。然而，一篇优秀的文章并非孤立元素的堆砌，而是由相互依赖的话语结构组成，例如引言（lead）、立场/主题（position）、论点（claim）、证据（evidence）和结论（conclusion）。

现有的大多数 AES 方法往往将这些话语元素视为独立的任务进行处理，这种割裂的方式损害了模型对文章整体连贯性的理解，进而影响了评分的准确性和泛化能力。随着大型语言模型（LLM）的发展，如何利用这些模型更好地捕捉文本内部的逻辑依赖关系，成为提升 AES 性能的关键挑战。

核心内容

本研究深入探讨了针对自动作文评分任务，对 LLaMA-3.1-8B 模型进行任务感知微调（task-aware fine-tuning）的策略。研究采用了参数高效微调技术 LoRA（Low-Rank Adaptation），并结合 4-bit 量化以优化资源消耗。

为了验证不同训练策略的效果，研究团队对比了三种训练课程（training curricula）：

序列化微调（Sequential）：按照话语结构的逻辑顺序，逐步对各个组件进行微调。具体顺序为：引言 -> 立场 -> 论点 -> 证据 -> 结论。这种策略旨在模拟人类写作或阅读时的逻辑构建过程。
独立微调（Independent）：为每个话语元素训练特定的独立模型，各任务之间互不干扰。
随机化微调（Randomized）：将多任务数据进行打乱混合进行训练，不遵循特定的逻辑顺序。

研究在 PERSUADE~2.0 语料库上进行了实验评估。实验结果揭示了建模任务依赖关系的重要性：

序列化微调表现最佳：该方法在整体评分上取得了最强结果。其中，证据（evidence）部分的 F1 分数达到 65%，结论（conclusion）部分达到 87%；对应的准确率分别为 63% 和 85%。
小模型超越大模型：尽管 LLaMA-70B 拥有远超 LLaMA-3.1-8B 的参数量，但在结论部分的评分上，经过序列化微调的小模型表现优于通用的 LLaMA-70B 基线模型。
随机化微调的局限性：随机化训练虽然在立场（position）评分上有所提升（F1 分数为 57%），但在其他指标上表现不如序列化微调一致。

研究团队还发布了相关的模板和实现细节，以促进教育自然语言处理（Educational NLP）领域在课程设计上进行复现和后续研究。

关键要点

话语依赖关系至关重要：自动作文评分不能仅孤立地看待各个写作要素，必须考虑引言、论点、证据和结论之间的逻辑依赖关系。
序列化微调优于其他策略：遵循话语结构逻辑顺序（从引言到结论）的渐进式微调，比独立训练或随机混合训练能带来更显著的性能提升。
小模型具备竞争力：经过特定任务优化的小参数模型（如 LLaMA-3.1-8B），在特定任务（如结论评分）上可以击败参数量大得多的通用大模型（如 LLaMA-70B）。
成本效益与可扩展性：通过参数高效微调（LoRA + 4-bit 量化），可以在保证性能的同时大幅降低计算成本，为大规模、低成本的自动化教育评估提供了可行的技术路径。
开放科学贡献：研究公开了实现细节和模板，旨在推动教育 NLP 领域在课程设计和模型微调方面的标准化与复现性。

意义与影响

这项研究对教育技术和自然语言处理领域具有双重意义。

首先，在技术层面，它挑战了“越大越好”的简单线性思维，证明了针对特定任务结构设计的训练课程（Curriculum Design）能够极大释放小模型的潜力。这表明，在资源受限的场景下，通过精心设计的微调策略，轻量级模型完全可以胜任复杂的语义理解任务。

其次，在应用层面，它为开发更高效、更公平的自动化作文评分系统提供了新思路。传统的 AES 系统往往难以捕捉文章的深层逻辑连贯性，而基于序列化微调的方法通过显式建模话语结构，有望提高评分的准确性和解释性。这对于大规模标准化考试、在线学习平台以及个性化写作辅导工具而言，意味着可以用更低的算力成本实现更高水平的智能化评估，从而促进教育资源的普惠化。

查看原文 →arxiv.org