← 返回信息流
技术博客arXiv cs.CL·3 小时前

LOPA: Enhancing Spoken Language Assessment via Latent Ordinal Prototype Alignment

AI 深度解读

LOPA:通过潜在序数原型对齐增强口语语言评估

背景

口语语言评估(Spoken Language Assessment, SLA)是语言学习与测试中的关键环节,旨在对学习者的发音、流利度及语言运用能力进行打分。近年来,随着模型规模不断扩大以及多模态输入的引入,多模态大模型(Multimodal Large Language Models, MLLMs)已成为 SLA 领域极具前景的范式。然而,当前基于 MLLM 的方法往往忽视了语言习得过程中内在的“序数结构”——即语言能力的发展是具有等级和顺序的,分数之间并非独立无序。此外,依赖大规模 MLLM 通常意味着高昂的计算成本和复杂的微调流程,这在实际落地中构成了巨大障碍。

核心内容

针对上述问题,本文提出了 LOPA(Latent Ordinal Prototype Alignment,潜在序数原型对齐) 框架,旨在绕过对大规模 MLLM 的依赖,通过引入语言学先验来提升 SLA 的性能与可解释性。

核心方法包含两个关键部分:

  1. 潜在序数原型对齐(LOPA):这是一种基于原型的正则化器。其核心思想是直接在模型的潜在空间中强制执行一个“序数几何先验”。简单来说,就是让模型在特征空间里,将不同语言能力的表征按照等级顺序(如从低分到高分)进行几何结构上的对齐,从而弥补现有 MLLM 忽略语言习得顺序结构的缺陷。
  2. 语义锚定层路由(Semantic-Anchored Layer Routing, SALR):为了给 LOPA 提供丰富的特征基础,框架引入了 SALR 技术。它能够自适应地从冻结的 Whisper 编码器中“收获”
查看原文 →arxiv.org