大语言模型生成的故事是否千篇一律?
速览
最新研究通过对比分析发现,大语言模型生成的叙事内容高度相似,呈现出明显的同质化趋势。与人类作者丰富的创作多样性相比,前沿模型倾向于收敛于一种通用的“平均”叙事模式。尽管尝试了负向提示和温度缩放等缓解策略,但均未能有效解决这一问题。
AI 深度解读
大语言模型是否总是讲述相同的故事?
背景
随着大型语言模型(LLMs)技术的飞速发展,其在生成高质量散文、故事及创意写作方面的能力已得到广泛验证。然而,学术界与工业界对于这些模型能否真正产生“多样化”的输出一直存在争议。
这种争议的核心在于:LLM 生成的文本虽然流畅且符合逻辑,但是否缺乏人类创作中那种独特的、不可预测的多样性?如果多个模型或同一模型在不同时间生成的故事高度相似,那么它们在创意应用中的价值将大打折扣。
为了解决这一疑问,研究人员从“叙事相似性”(narrative similarity)的框架出发,对 LLM 生成故事的多样性进行了系统性调查。
核心内容
本研究旨在探究 LLM 生成故事的多样性程度。研究团队构建了一个对比框架,利用来自 Reddit 子版块 r/WritingPrompts 的人类写作故事及其对应的提示词(prompts)作为基准数据集。
研究方法
为了全面评估叙事相似性,研究采用了混合评估策略:
- 模型范围:选取了 10 个具有代表性的大型语言模型进行测试。
- 评估维度:
- 人工评估:由人类专家对生成故事的叙事相似度进行判断。
- 自动标注:使用了三种不同的自动标注方法来量化叙事相似性。
主要发现
研究结果揭示了一个一致且令人担忧的趋势:LLM 生成的叙事彼此之间的高度相似性,远超人类写作故事之间的相似性。
具体而言,研究指出,即使是处于前沿水平(frontier)的先进模型,也倾向于收敛于一种“平均化”的通用叙事模式。这种模式虽然能够近似地模拟单个人类故事的结构和情节,但却严重缺乏人类作者群体所具备的集体多样性。换句话说,模型正在学习并重复一种“最安全”或“最典型”的故事模板,而非探索多样化的叙事路径。
缓解策略的失效
研究还测试了常见的旨在增加多样性的缓解策略,包括:
- 负向提示(Negative prompting):明确告诉模型不要生成某些内容。
- 温度缩放(Temperature scaling):通过调整采样参数以增加随机性。
结果显示,这些常见策略未能有意义地解决这种同质化问题。即使调整了参数或使用了负向约束,模型生成的故事依然表现出高度的趋同性。
关键要点
- 同质化现象普遍:LLM 生成的故事在叙事结构、情节走向和风格上表现出显著的同质性,彼此之间的相似度远高于人类作品。
- “平均叙事”陷阱:前沿模型倾向于生成一种“平均化”的通用故事,这种故事看似合理且完整,但缺乏人类创作中的独特性和多样性。
- 现有手段无效:目前常用的增加多样性的技术手段(如调整温度参数、使用负向提示)无法从根本上解决模型输出的同质化问题。
- 评估方法多元:研究结合了人工评估和三种自动标注方法,确保了结论的稳健性和可靠性。
意义与影响
这项研究对大语言模型在创意写作领域的应用提出了严峻挑战。
- 创意应用的局限性:如果 LLM 无法提供多样化的叙事视角,那么其在小说创作、剧本编写、游戏剧情生成等依赖独特创意的领域的应用价值将受到限制。用户可能会感到内容千篇一律,缺乏惊喜感。
- 模型训练与对齐的反思:模型收敛于“平均叙事”可能与其训练目标(如最大化概率、最小化困惑度)以及人类反馈强化学习(RLHF)中对“安全”和“主流”内容的偏好有关。这提示研究人员需要重新审视模型的优化目标,以鼓励真正的多样性而非仅仅是流畅性。
- 未来研究方向:既然现有的参数调整策略无效,未来的研究可能需要探索更根本性的架构改变、新的训练范式(如基于多样性的奖励模型),或者结合外部知识源和随机性机制,以打破模型的“平均化”倾向。
总之,这项研究提醒我们,尽管 LLM 在生成流畅文本方面表现出色,但在模拟人类创作的多样性和独特性方面,仍有巨大的改进空间。
