← 返回信息流
技术博客arXiv cs.CL·2 天前

SemEval-2026幽默生成任务夺冠:偏好建模让机器更懂幽默

原标题:lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation

速览

该研究针对幽默生成中主观性强、标注噪声大的难题,提出“生成-筛选”策略,利用偏好模型模拟读者品味。系统通过2.5K人工对比数据训练,在SemEval-2026 MWAHAHA任务中斩获英中组冠军及西语组亚军,显著优于基线模型。

AI 深度解读

lmfaoooo 在 SemEval-2026 Task 1 的表现:幽默是受众的偏好建模与约束生成

背景

幽默生成一直是自然语言处理(NLP)领域极具挑战性的难题。其困难不仅在于生成流畅、新颖的笑话本身,更在于“幽默感”具有高度的受众依赖性,且监督信号往往充满噪声。具体而言,人们对幽默的偏好会随受众群体、上下文语境以及文化背景的变化而波动,导致标注者之间的一致性通常较低。

SemEval-2026 Task 1(即 MWAHAHA 任务)专注于在显式约束条件下的幽默生成。该任务通过 1-on-1 的竞技场风格(arena-style)人工偏好评估来衡量提交系统的性能,而非仅仅依赖自动化的指标。在这一背景下,如何构建能够模拟真实读者偏好的模型,成为提升生成质量的关键。

核心内容

本文介绍了名为 lmfaoooo 的系统,该系统在 SemEval-2026 Task 1 (MWAHAHA) 中取得了优异成绩。研究团队采用了一种“生成多候选 -> 选择最佳”的策略,并提出了具体的实施路径和技术细节。

1. 多样化候选生成策略

为了应对幽默生成的多样性需求,系统首先为每个实例生成一个多样化的候选池。这一过程结合了以下三种技术:

  • 多步提示(Multi-step prompting):通过分阶段的提示工程引导模型生成不同风格或结构的笑话。
  • 模型集成(Model ensembling):结合多个模型的优势,增加生成内容的丰富度。
  • 面向多样性的解码(Diversity-oriented decoding):在解码阶段引入机制以确保输出结果的差异性,避免同质化。

2. 基于偏好的选择模型

在生成候选池后,系统需要从中筛选出最佳输出。传统的做法可能依赖于绝对幽默评分,但本研究提出使用一个偏好模型(Preference Model)。该模型通过从人类比较数据中学习,而非依赖绝对的幽默分数,来近似模拟“读者”的判断逻辑。

为了支持这一方法,研究团队发布了一个名为 Humor Arena 的原型系统,并通过该系统收集了 2.5K 个人类成对比较(pairwise judgments)数据。此外,团队还提出了一种可解释的流水线,将标注好的比较数据转化为偏好模型。

3. 实验结果与性能

在三个不同的偏好数据集上,该模型 consistently(一致地)优于基线模型,并展现出更强的跨领域迁移能力。最终,研究团队将学习到的偏好模型应用于 MWAHAHA 设置中的候选排名,并发布了中间产物(包括候选池和排名结果),以促进后续研究。

4. 竞赛成绩

凭借上述方法,lmfaoooo 系统在 MWAHAHA 任务的 英语中文 子任务中均获得 第 1 名,在 西班牙语 子任务中获得 第 2 名

关键要点

  • 幽默的主观性与噪声问题:幽默生成难在“好笑”是相对于受众、语境和文化的,且人工标注的一致性低,导致监督信号噪声大。
  • “生成-选择”范式:系统不直接生成单一结果,而是先生成多样化候选池,再通过偏好模型筛选最佳结果。
  • 模拟读者而非量化幽默:偏好模型通过学习人类的两两比较数据来近似“读者”视角,而非试图量化绝对的幽默分数。
  • 数据贡献:发布了通过 Humor Arena 原型收集的 2.5K 个人类成对比较数据,以及候选池和排名等中间产物,有助于社区后续研究。
  • 可解释性流水线:提出了一种将标注比较转化为偏好模型的可解释流程。
  • 多语言优异表现:在英语和中文子任务中夺冠,西班牙语子任务亚军,证明了方法在多语言环境下的有效性。
  • 跨领域迁移能力:模型在三个偏好数据集上的表现均优于基线,显示出良好的泛化能力。

意义与影响

这项研究对幽默生成领域具有重要的理论和实践意义:

  1. 重新定义评估标准:通过引入基于人类比较的偏好模型,研究强调了幽默的主观性和受众依赖性,推动了从“绝对评分”向“相对偏好”评估范式的转变。
  2. 解决数据稀缺与噪声问题:通过构建 Humor Arena 并收集高质量的人类成对比较数据,为后续研究提供了宝贵的资源,有助于缓解监督信号噪声大的问题。
  3. 提升多语言幽默生成能力:在英语、中文和西班牙语子任务中的优异表现,表明该方法具有良好的跨语言泛化能力,为多语言幽默 AI 的发展提供了新思路。
  4. 促进开放科学:发布候选池、排名结果及偏好模型,降低了后续研究的门槛,鼓励社区在此基础上进行更多探索。

总之,lmfaoooo 系统通过结合多样化生成与基于偏好的选择机制,有效地应对了幽默生成中的主观性和噪声挑战,为构建更贴近人类审美的 AI 幽默生成系统提供了可行的技术路径。

查看原文 →arxiv.org