技术博客arXiv cs.CL·1 小时前

Indi-RomCoM: Code-Mixed Benchmark for Evaluating LLMs on Romanized Indic-English Instructions

AI 深度解读

背景

在多语言社会中，双语使用者在日常交流中频繁地在本地语言与英语之间切换，这种现象被称为"语码混合"（Code-Mixing）。随着智能手机和社交媒体的普及，一种特殊形态的语码混合——罗马化语码混合（Romanized Code Mixing, RCM）——正成为主流沟通方式。RCM 指的是使用拉丁字母（罗马书写系统）将本地语言与英语混合书写，而非使用本地文字。例如，印地语使用者可能用拉丁字母拼写印地语词汇，同时夹杂英语表达，而非使用天城文（Devanagari）。

尽管大型语言模型（LLMs）在单语和原生文字基准测试中表现强劲，但它们在 RCM 场景下的指令遵循与推理能力尚未得到充分评估。这一空白促使研究者开发专门的基准测试工具。

核心内容

本文提出了 Indi-RomCoM 基准测试，旨在系统评估大型语言模型在印度语言罗马化语码混合指令上的表现。该基准的核心设计如下：

覆盖范围：Indi-RomCoM 涵盖七大类指令遵循任务，涉及四种广泛使用的印度语言，并设置了三种受控的语码混合强度等级。这意味着基准不仅考察模型能否理解混合语言指令，还考察混合程度对性能的影响。

评估设置：研究团队对三类模型进行了广泛评估——闭源专有模型（proprietary）、开源权重模型（open-weight）以及专门针对印度语言优化的模型（Indic-focused models）。评估采用零样本（zero-shot）和少样本（few-shot）两种设置。

核心发现：

LLMs 在 RCM 指令上表现持续不佳。与单语或原生文字场景相比，模型在罗马化语码混合指令上的性能显著下降。
语码混合密度越高，性能退化越严重。随着 RCM 强度的增加，模型的准确率呈现下降趋势。
推理任务比检测任务更具韧性。例如，毒性检测（Toxicity detection）等检测类任务的性能退化幅度大于推理类任务。研究者推测，这是因为推理任务中模型生成的解释文本提供了必要的上下文线索，部分弥补了输入端混合语言带来的理解困难。

研究者认为，Indi-RomCoM 将帮助社区开发更具包容性的多语言系统。

关键要点

问题定义：罗马化语码混合（RCM）是多语言社区的主流沟通方式，但 LLMs 在此场景下的能力尚未被充分研究。
基准构成：Indi-RomCoM 包含 7 个指令遵循任务、4 种印度语言、3 种语码混合强度等级。
模型覆盖：评估涵盖闭源模型、开源模型及印度语言专用模型，采用零样本与少样本设置。
核心结论：LLMs 在 RCM 指令上系统性表现不佳，且性能随混合密度增加而下降。
任务类型差异：推理任务比检测任务（如毒性检测）更能抵抗 RCM 带来的性能退化，归因于生成解释提供的上下文补偿。
研究意义：为构建包容性多语言系统提供评估工具和实证依据。

意义与影响

Indi-RomCoM 的提出填补了多语言 LLM 评估领域的一个重要空白。当前主流基准测试大多基于单语或原生文字场景，而全球数十亿多语言使用者的真实沟通方式恰恰是语码混合。该基准揭示了一个被忽视的现实：即使是最先进的 LLMs，在面对用户最自然的表达方式时也可能表现不佳。

从实践角度看，这一研究为模型开发者提供了明确的改进方向——需要针对罗马化语码混合场景进行专门的训练和优化，尤其是在高混合密度条件下。从更广泛的视角看，Indi-RomCoM 代表了 AI 包容性评估的重要一步，提醒研究社区：真正多语言的系统必须能够处理人们实际使用的语言形式，而非仅限于规范化的书面语。

查看原文 →arxiv.org

Indi-RomCoM: Code-Mixed Benchmark for Evaluating LLMs on Romanized Indic-English Instructions

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐