技术博客arXiv cs.CL·23 小时前

大语言模型生成的故事是否千篇一律？

原标题：Do Large Language Models Always Tell The Same Stories?

速览

最新研究通过对比分析发现，大语言模型生成的叙事内容高度相似，呈现出明显的同质化趋势。与人类作者丰富的创作多样性相比，前沿模型倾向于收敛于一种通用的“平均”叙事模式。尽管尝试了负向提示和温度缩放等缓解策略，但均未能有效解决这一问题。

AI 深度解读

大语言模型是否总是讲述相同的故事？

背景

随着大型语言模型（LLMs）技术的飞速发展，其在生成高质量散文、故事及创意写作方面的能力已得到广泛验证。然而，学术界与工业界对于这些模型能否真正产生“多样化”的输出一直存在争议。

这种争议的核心在于：LLM 生成的文本虽然流畅且符合逻辑，但是否缺乏人类创作中那种独特的、不可预测的多样性？如果多个模型或同一模型在不同时间生成的故事高度相似，那么它们在创意应用中的价值将大打折扣。

为了解决这一疑问，研究人员从“叙事相似性”（narrative similarity）的框架出发，对 LLM 生成故事的多样性进行了系统性调查。

核心内容

本研究旨在探究 LLM 生成故事的多样性程度。研究团队构建了一个对比框架，利用来自 Reddit 子版块 r/WritingPrompts 的人类写作故事及其对应的提示词（prompts）作为基准数据集。

研究方法

为了全面评估叙事相似性，研究采用了混合评估策略：

模型范围：选取了 10 个具有代表性的大型语言模型进行测试。
评估维度：
- 人工评估：由人类专家对生成故事的叙事相似度进行判断。
- 自动标注：使用了三种不同的自动标注方法来量化叙事相似性。

主要发现

研究结果揭示了一个一致且令人担忧的趋势：LLM 生成的叙事彼此之间的高度相似性，远超人类写作故事之间的相似性。

具体而言，研究指出，即使是处于前沿水平（frontier）的先进模型，也倾向于收敛于一种“平均化”的通用叙事模式。这种模式虽然能够近似地模拟单个人类故事的结构和情节，但却严重缺乏人类作者群体所具备的集体多样性。换句话说，模型正在学习并重复一种“最安全”或“最典型”的故事模板，而非探索多样化的叙事路径。

缓解策略的失效

研究还测试了常见的旨在增加多样性的缓解策略，包括：

负向提示（Negative prompting）：明确告诉模型不要生成某些内容。
温度缩放（Temperature scaling）：通过调整采样参数以增加随机性。

结果显示，这些常见策略未能有意义地解决这种同质化问题。即使调整了参数或使用了负向约束，模型生成的故事依然表现出高度的趋同性。

关键要点

同质化现象普遍：LLM 生成的故事在叙事结构、情节走向和风格上表现出显著的同质性，彼此之间的相似度远高于人类作品。
“平均叙事”陷阱：前沿模型倾向于生成一种“平均化”的通用故事，这种故事看似合理且完整，但缺乏人类创作中的独特性和多样性。
现有手段无效：目前常用的增加多样性的技术手段（如调整温度参数、使用负向提示）无法从根本上解决模型输出的同质化问题。
评估方法多元：研究结合了人工评估和三种自动标注方法，确保了结论的稳健性和可靠性。

意义与影响

这项研究对大语言模型在创意写作领域的应用提出了严峻挑战。

创意应用的局限性：如果 LLM 无法提供多样化的叙事视角，那么其在小说创作、剧本编写、游戏剧情生成等依赖独特创意的领域的应用价值将受到限制。用户可能会感到内容千篇一律，缺乏惊喜感。
模型训练与对齐的反思：模型收敛于“平均叙事”可能与其训练目标（如最大化概率、最小化困惑度）以及人类反馈强化学习（RLHF）中对“安全”和“主流”内容的偏好有关。这提示研究人员需要重新审视模型的优化目标，以鼓励真正的多样性而非仅仅是流畅性。
未来研究方向：既然现有的参数调整策略无效，未来的研究可能需要探索更根本性的架构改变、新的训练范式（如基于多样性的奖励模型），或者结合外部知识源和随机性机制，以打破模型的“平均化”倾向。

总之，这项研究提醒我们，尽管 LLM 在生成流畅文本方面表现出色，但在模拟人类创作的多样性和独特性方面，仍有巨大的改进空间。

查看原文 →arxiv.org