← 返回信息流
技术博客arXiv cs.CL·23 小时前

YOMI-Bench:新基准测试日语LLMs读音与发音理解能力

原标题:YOMI-Bench: A Benchmark for Evaluating Kanji Reading and Phonological Understanding of LLMs for Japanese

速览

本文提出YOMI-Bench基准,用于评估大型语言模型在日语中的汉字读音和发音理解能力。由于日语一字多音特性,表面文本难以推断正确读音,导致LLMs在汉字阅读任务上表现不佳。基准包含四个专为评估日语汉字读音设计的任务。实验中测试了多语种开源LLM、日本专属开源LLM和商用LLM,发现日语专属模型和商用模型在需要考虑汉字读音的生成任务上均表现较差。这一基准为精准评估和提升LLMs在日语复杂语言理解方面提供重要工具,具有推动日语AI应用进步的实际意义。

AI 深度解读

背景

日语中的汉字(Kanji)读音高度多义,一字多音现象普遍存在,导致仅依赖表面文本无法准确推断正确读音。这一特性使得大型语言模型(LLMs)在日语汉字阅读和语音理解任务上表现较差。arXiv 计算机科学-计算语言学分类下的这篇论文(提交日期:2026年7月1日)旨在提出一个专用基准测试(benchmark),以系统评估LLMs在日语Kanji阅读和语音理解方面的能力。

核心内容

论文标题为 YOMI-Bench: A Benchmark for Evaluating Kanji Reading and Phonological Understanding of LLMs for Japanese,作者提出了一种专用于评估大型语言模型在日语Kanji阅读和语音理解能力的基准测试。该基准测试由四个专门设计的任务构成,这些任务旨在准确衡量LLMs在日语Kanji阅读方面的表现。

为验证基准的有效性,论文作者对以下模型进行了评估:一个多语言开放LLM、四个日语特定开放LLM,以及五个商业LLM。实验结果显示,即使是日语专用的模型在Kanji阅读任务上也表现出较低的性能;此外,商业模型在需要考虑Kanji读音的生成任务中同样表现不佳。

关键要点

  • 基准任务设计:YOMI-Bench 包含四个专门任务,专门用于评估LLMs在日语Kanji阅读方面的性能。
  • 模型评估结果:多语言开放LLM、日语专用的开放LLM以及商业LLM均在Kanji阅读任务上表现有限。
  • 生成任务挑战:商业模型在需要考虑Kanji读音的生成任务中同样面临困难。
  • 研究背景:论文指出,日语Kanji的多义性是LLMs难以准确推断读音的主要原因。

意义与影响

该基准测试为后续LLM在日语语言处理能力的改进提供了精确的评估工具,有助于推动日语LLM模型的优化与发展。

查看原文 →arxiv.org