技术博客arXiv cs.CL·7 天前

玩味文字，奖励提升：训练语言模型的创造性联想

原标题：Playing with Words, Improving with Rewards: Training Language Models for Creative Association

速览

该研究提出利用单词联想游戏Codenames作为训练环境，通过可验证奖励强化学习（RLVR）解决人类主观评判限制。实验表明，8B模型在保持推理精度的同时显著提升创造力，而较小模型则侧重推理能力。这为大规模训练具备创造性的大语言模型提供了可扩展且有效的解决方案。

AI 深度解读

玩弄文字，奖励驱动：训练语言模型的创造性联想能力

背景

随着大型语言模型（LLMs）被应用于日益复杂的问题和用例，其核心挑战已从单纯的知识检索转向解决开放性问题。为了在庞大的解空间中有效导航，LLMs 必须具备“创造性”。然而，创造力本质上具有主观性，且人类的判断存在局限性，这使得直接通过人类反馈来训练模型的创造性变得极具挑战性。

传统的监督学习或基于人类偏好的强化学习（RLHF）往往难以量化“创造性”这一模糊概念。如果缺乏客观的评估标准，模型很难在保持逻辑准确性的同时提升发散思维和联想能力。因此，业界急需一种能够客观衡量创造性、并支持大规模自动化训练的方法。

核心内容

本文提出了一种基于游戏化任务的训练框架，旨在解决 LLM 创造性训练中的主观性难题。研究团队利用单词联想游戏《Codenames》（谍报词）作为训练环境，通过强化学习中的可验证奖励机制（Reinforcement Learning with Verifiable Rewards, RLVR）来优化模型性能。

1. 为什么选择《Codenames》？

《Codenames》是一款经典的多人单词联想游戏，其核心机制完美契合了创造力的两个关键维度：

发散思维（Divergent Thinking）：玩家需要从众多单词中找出具有潜在关联的词汇。
收敛思维（Convergent Thinking）：玩家需要将线索词与目标单词进行精确匹配，以达成游戏目标。

更重要的是，这款游戏具有客观可验证的结果。在游戏规则下，每一步猜测是否正确、是否获胜，都有明确的二进制判定（成功/失败）。这种特性使得研究者可以绕过主观的人类评判，直接利用游戏结果作为强化学习的奖励信号。

2. 方法论：RLVR 训练

研究团队采用了 RLVR（基于可验证奖励的强化学习）技术。与传统依赖人类打分的方法不同，RLVR 利用游戏胜负这一客观事实作为奖励函数。这意味着模型可以通过数百万次的自我对弈或模拟，自动获得关于“何种联想更具创造性且准确”的反馈，从而实现规模化训练。

3. 实验设置与模型

研究团队对 Qwen3 系列的三个不同规模的模型进行了训练和评估：

Qwen3-1.7B
Qwen3-4B
Qwen3-8B

评估范围涵盖十个创造力基准测试和四个推理基准测试，以全面衡量模型在创造性联想与逻辑推理之间的平衡能力。

4. 主要发现：规模依赖的精度-多样性权衡

研究揭示了一个关键现象：精度与多样性的权衡（precision-diversity trade-off）具有规模依赖性。

8B 模型的表现：
- 创造性提升：在 10 个创造力基准测试中的 8 个上，8B 模型展现了适度但一致的创造性提升。
- 推理能力保持：在提升创造性的同时，其推理能力的下降微乎其微。
- 策略倾向：该规模的模型更倾向于优先保障创造性，而非极致的精度。
1.7B 和 4B 模型的表现：
- 推理优先：较小的模型在推理任务上取得了显著的提升。
- 创造性代价：这种推理精度的提升是以牺牲创造性为代价的。这表明在小参数规模下，模型可能更倾向于保守的、逻辑严密的推理路径，而非冒险的创造性联想。

关键要点

客观评估创造性：通过《Codenames》游戏，将主观的“创造性”转化为客观的“游戏胜负”，解决了 LLM 创造性训练缺乏标准反馈的问题。
RLVR 的有效性：研究证实，利用可验证奖励（Verifiable Rewards）进行强化学习，是训练 LLM 创造性联想能力的可扩展且高效的方法。
规模效应显著：模型规模决定了创造性与推理能力的平衡点。8B 及以上规模的模型能够在提升创造性的同时保持推理能力，而较小规模模型则更侧重于推理精度的提升。
双轴创造力训练：《Codenames》游戏同时锻炼了发散思维（寻找关联）和收敛思维（精确匹配），这是单一任务难以兼顾的。
Qwen3 系列验证：研究以 Qwen3-1.7B/4B/8B 为实验对象，证明了该方法在不同参数规模下的适用性及差异。

意义与影响

这项研究为 LLM 的创造性训练提供了一条清晰且可操作的路径。其核心贡献在于去主观化：它证明了不需要依赖昂贵且不一致的人类标注，就可以通过设计具有客观反馈机制的任务（如游戏、逻辑谜题等）来训练模型的复杂认知能力。

对于行业而言，这意味着未来训练更具“创意”的 AI 助手、创意写作工具或解谜游戏 AI 时，可以借鉴这种基于可验证奖励的强化学习框架。此外，研究揭示的“规模依赖性”也为模型选型提供了指导：若目标是增强创造性联想，可能需要至少 8B 参数规模的模型；若侧重逻辑推理，较小规模的模型可能在特定任务上更具性价比。

总之，这项研究不仅展示了如何“玩”出更聪明的 AI，更确立了通过客观游戏化任务量化和优化创造性这一重要范式。

查看原文 →arxiv.org