技术博客arXiv cs.CL·8 天前

灯塔里的伊莱亚斯？诊断大语言模型故事的低多样性

原标题：Elias in the Lighthouse, Again? Diagnosing Low Diversity in LLM Stories

速览

研究采样两万个故事发现，大模型生成的故事多样性极低，特定词汇如“灯塔”和人名“伊莱亚斯”高频出现。这些词汇并非来自预训练数据，而是源于对齐阶段的偏好数据。该结果揭示了小数据集结合强大对齐算法对模型输出的不成比例影响。

大型语言模型（LLM）在生成故事方面已成为一个热门应用场景。然而，尽管模型能力日益增强，生成的文本在多样性上却表现出极低的水平。这种现象不仅影响了用户体验，也引发了对模型训练数据、对齐算法以及版权合规性之间复杂关系的深入思考。

近期提交至 arXiv 的一项研究（cs.CL，2026年5月26日提交）通过大规模采样分析，揭示了当前主流 LLM 在故事生成中存在的严重同质化问题。该研究指出，这种低多样性并非随机噪声，而是源于特定的训练数据偏差，特别是那些经过人类反馈强化学习（RLHF）等对齐技术处理过的偏好数据。

本研究通过对四个当前主流模型进行采样，深入诊断了 LLM 生成故事中的低多样性现象。研究团队使用了五个不同的提示词（prompts），总共收集了 20,000 个生成的故事样本。

研究发现，在生成的 20,000 个故事中，有 11 个特定的单词出现在 88.3% 的故事里。这一比例之高，且在不同模型之间差异极小，表明这是一种系统性的偏差，而非特定模型的偶然错误。

这些高频出现的词汇主要包括：

研究人员进一步分析了这些高频词汇的来源，发现了一个关键矛盾：

非自然语言特征：这些词汇（特别是 "Elias" 和 "lighthouse" 的组合）在已出版的文学作品中并不常见，也不大量存在于模型预训练（pre-training）所使用的公开语料库中。
偏好数据中的高频存在：相反，这些词汇在“偏好数据”（preference data）中频繁出现。偏好数据通常用于模型的微调和对齐阶段（如 RLHF），旨在引导模型生成符合人类价值观、安全且高质量的内容。由于当前的主流模型大多使用了类似的偏好数据集进行对齐，因此它们产生了高度相似的输出模式。

研究还对比了这类“灯塔故事”（lighthouse stories）与平均水平的后训练故事（post-training story）。

频率差异：相比于那些包含受版权保护角色引用或成人内容的后训练故事，纯粹的“灯塔故事”出现频率较低。
内容性质：平均水平的后训练故事往往包含更多敏感或受版权保护的内容，而“灯塔故事”则显得更为“干净”和“安全”，但这正是其被过度生成的原因——它们代表了模型在对齐过程中被强化的一种特定叙事模板。

系统性偏差：LLM 生成的故事存在严重的低多样性问题，11 个特定词汇出现在近 90% 的生成故事中。
跨模型一致性：这种同质化现象在四个不同的主流模型中表现一致，说明问题根源在于共享的训练资源或对齐策略，而非模型架构本身。
偏好数据是关键诱因：导致低多样性的核心因素是用于对齐的偏好数据（preference data），而非预训练数据。这些词汇在预训练语料中罕见，但在偏好数据中高频出现。
小数据集的巨大影响：研究结果证明了“小数据集”（指经过精心筛选的偏好数据集）结合“强大的对齐算法”可能产生不成比例的巨大影响，导致模型输出陷入局部最优的叙事模式。
“灯塔故事”的定义：特指那些包含 Elias、Mara、Elara 等名字，以及灯塔、钟表匠、图书管理员等元素的故事模板，它们是模型对齐过程中被过度强化的产物。

这项研究对 LLM 的开发者和用户具有重要的警示意义：

对齐算法的双刃剑效应：虽然 RLHF 等对齐技术旨在提升模型的安全性和有用性，但如果对齐数据存在偏差或多样性不足，会导致模型输出高度同质化，甚至产生“幻觉式”的固定叙事模板。
数据隐私与版权的间接风险：虽然“灯塔故事”本身不包含明显的版权侵权内容，但它们揭示了模型如何从非公开或受限的偏好数据中学习到特定的模式。这提醒我们，对齐数据的质量、多样性和代表性对模型行为的影响远超预训练数据。
对创意应用的挑战：对于依赖 LLM 进行创意写作、游戏叙事等应用的用户来说，当前的模型可能无法提供足够多样化的灵感，因为模型倾向于重复使用少数几个被“奖励”过的叙事结构。
未来研究方向：研究呼吁在构建偏好数据集时，必须更加注重多样性和代表性，避免小规模的、有偏差的数据集主导模型的行为。同时，需要开发新的评估指标，以量化模型输出的多样性，而不仅仅是质量或安全性。

总之，这项研究揭示了 LLM 在追求“安全”和“符合人类偏好”的过程中，可能付出的代价是创造力的丧失和输出的高度单一化。解决这一问题需要从数据构建、对齐算法设计以及评估体系等多个层面进行综合改进。