技术博客arXiv cs.CL·2 天前

SemEval-2026幽默生成任务夺冠：偏好建模让机器更懂幽默

原标题：lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation

速览

该研究针对幽默生成中主观性强、标注噪声大的难题，提出“生成-筛选”策略，利用偏好模型模拟读者品味。系统通过2.5K人工对比数据训练，在SemEval-2026 MWAHAHA任务中斩获英中组冠军及西语组亚军，显著优于基线模型。

幽默生成一直是自然语言处理（NLP）领域极具挑战性的难题。其困难不仅在于生成流畅、新颖的笑话本身，更在于“幽默感”具有高度的受众依赖性，且监督信号往往充满噪声。具体而言，人们对幽默的偏好会随受众群体、上下文语境以及文化背景的变化而波动，导致标注者之间的一致性通常较低。

SemEval-2026 Task 1（即 MWAHAHA 任务）专注于在显式约束条件下的幽默生成。该任务通过 1-on-1 的竞技场风格（arena-style）人工偏好评估来衡量提交系统的性能，而非仅仅依赖自动化的指标。在这一背景下，如何构建能够模拟真实读者偏好的模型，成为提升生成质量的关键。

本文介绍了名为 lmfaoooo 的系统，该系统在 SemEval-2026 Task 1 (MWAHAHA) 中取得了优异成绩。研究团队采用了一种“生成多候选 -> 选择最佳”的策略，并提出了具体的实施路径和技术细节。

为了应对幽默生成的多样性需求，系统首先为每个实例生成一个多样化的候选池。这一过程结合了以下三种技术：

在生成候选池后，系统需要从中筛选出最佳输出。传统的做法可能依赖于绝对幽默评分，但本研究提出使用一个偏好模型（Preference Model）。该模型通过从人类比较数据中学习，而非依赖绝对的幽默分数，来近似模拟“读者”的判断逻辑。

为了支持这一方法，研究团队发布了一个名为 Humor Arena 的原型系统，并通过该系统收集了 2.5K 个人类成对比较（pairwise judgments）数据。此外，团队还提出了一种可解释的流水线，将标注好的比较数据转化为偏好模型。

在三个不同的偏好数据集上，该模型 consistently（一致地）优于基线模型，并展现出更强的跨领域迁移能力。最终，研究团队将学习到的偏好模型应用于 MWAHAHA 设置中的候选排名，并发布了中间产物（包括候选池和排名结果），以促进后续研究。

凭借上述方法，lmfaoooo 系统在 MWAHAHA 任务的英语和中文子任务中均获得 第 1 名，在 西班牙语 子任务中获得 第 2 名。

这项研究对幽默生成领域具有重要的理论和实践意义：

总之，lmfaoooo 系统通过结合多样化生成与基于偏好的选择机制，有效地应对了幽默生成中的主观性和噪声挑战，为构建更贴近人类审美的 AI 幽默生成系统提供了可行的技术路径。