← 返回信息流
创投信息钛媒体·4 天前

AI写小说套路曝光:Claude爱平铺直叙,GPT热衷做梦,Gemini惯用他如何如何

原标题:AI写小说的套路被扒光了: Claude爱平铺,GPT总做梦,Gemini只会“他如何如何”

速览

马里兰大学与Google DeepMind联合发布《StoryScope》研究,通过分析6万多篇故事发现,AI与人类在叙事结构、说教倾向、时间线处理及身体描写上存在本质差异。研究指出AI缺乏真正的读者意识和情绪体验,其“底层叙事逻辑”具有高度可识别性,仅凭叙事特征即可以93.2%准确率区分AI与人类作品。

AI 深度解读

背景

随着生成式人工智能在内容创作领域的渗透,关于“AI写作”的讨论已从单纯的技术可行性转向对文本特质的深度审视。过去,公众和创作者普遍依赖“风格特征”来鉴别AI生成内容,例如过度使用破折号、罗列“首先、其次、最后”或堆砌形容词。然而,这些表层特征极易通过调整提示词(Prompt)或进行简单的后处理被消除,导致“去AI味”的努力往往流于表面。

在此背景下,马里兰大学计算机系与 Google DeepMind 的研究团队联合开展了一项大规模实证研究,旨在探究 AI 与人类在叙事逻辑层面的根本差异。2026年4月,该团队在 arXiv 上发表了论文《StoryScope: Investigating idiosyncrasies in AI fiction》(《故事显微镜:探究AI小说的特质》)。沃顿商学院教授 Ethan Mollick 在社交媒体 X 上分享该研究后,引发了学术界、创作者及普通读者的广泛关注。这项研究不仅挑战了“调教好提示词即可让 AI 写出人类水平故事”的乐观假设,更揭示了 AI 叙事中深层的结构性局限。

核心内容

研究团队构建了一个名为 StoryScope 的自动化分析管道,对叙事特征进行了大规模量化分析。实验收集了 10,272 个写作提示,分别由人类作者以及五个主流大语言模型(Claude、DeepSeek、Gemini、GPT、Kimi)进行创作,每篇故事约 5,000 词,最终生成 61,608 篇故事。研究从情节结构、角色能动性、时间连贯性、对话密度等 10 个维度提取了 304 个细粒度叙事特征。

研究发现,仅凭叙事特征即可达到 93.2% 的准确率区分人类与 AI 写作;在识别具体作者(包括五个 AI 模型和人类)的任务中,准确率高达 68.4%。相比之下,包含标点、句式等风格线索的模型准确率提升不足 3%。这表明,AI 写作的“底层叙事逻辑”具有高度的可识别性,且无法通过表面修饰掩盖。

研究将 AI 与人类在叙事上的核心差异归纳为以下五个维度:

  1. 过度说教与主题显性化 AI 倾向于直接点明故事主题,77% 的 AI 叙事者会直接阐述道理,而人类仅为 52%。AI 故事中涉及哲学讨论的对话比例(59%)远高于人类(34%)。此外,AI 对其他作品的引用多为“模糊暗指”(72%),缺乏人类作者那种明确提及作品名称(50%)或直接引用的自信。AI 的叙事潜台词是“我告诉你一个道理”,而人类则是“你自己品”。

  2. 线性叙事与缺乏支线 人类擅长非线性叙事,如倒叙、插叙和多线并行,而 AI 几乎总是遵循单一线性时间轴。数据显示,79% 的 AI 故事没有支线情节,而人类故事这一比例为 57%。在结局处理上,AI 倾向于为主角提供明确的交代(如顿悟或接受现实,占 47%),而人类更倾向于开放式或模糊结局(仅 27% 提供明确交代),留给读者想象空间。

  3. 身体描写的情绪替代 AI 极少直接使用情绪标签(如“害怕”、“愤怒”),仅 8% 的情况下使用,而人类为 29%。相反,AI 高度依赖生理感受和环境描写来“演绎”情绪,81% 的 AI 文本通过身体反应传达情绪,且大量使用嗅觉意象(82%)。这种“教科书式”的堆砌暴露了 AI 缺乏真实的情绪体验,只能从数据中学习情绪的外在表现,导致描写往往显得“用力过猛”且缺乏内在真实感。

  4. 缺乏读者意识与“第四面墙”互动 人类作者常通过打破“第四面墙”与读者直接对话(28% 的人类作品使用,AI 仅 7%),并在显性引用与隐性参考之间灵活切换。AI 的叙事是封闭的,缺乏“读者意识”,不在乎读者是否理解或跟随,仅将其视为任务完成过程。AI 难以像人类那样自如地在文本间建立互文性联系。

  5. 叙事空间的趋同与模板化 在叙事空间中,AI 生成的故事高度聚集,呈现出严重的“撞脸”现象。人类故事素材库更丰富,涉及更多地点、更高比例的对话占比以及更多融入核心主题的支线。AI 主角倾向于“伟光正”的道德立场(59% 的人类主角具有道德矛盾,AI 仅为 38%),被困在狭窄的默认叙事模板中。

此外,研究揭示了不同 AI 模型独特的“叙事指纹”:Claude 的事件升级平淡,GPT 过度使用梦境序列,Gemini 默认使用外部视角描述角色。尽管各模型风格各异,但所有 AI 模型在叙事空间中的聚集区域高度重合,显示出训练范式导致的“叙事趋同”现象。

关键要点

  • 叙事特征优于风格特征:仅通过情节、时间结构、角色能动性等叙事特征,即可高准确率(93.2%)区分 AI 与人类写作,风格修饰(如标点、句式)对鉴别的贡献微乎其微。
  • AI 缺乏真正的叙事智慧:AI 无法理解生活体验、死亡或“欲说还休”的情感张力,只能套用标准故事模板,导致其叙事逻辑与人类存在根本性差异。
  • 五大核心差异
    1. 说教倾向:AI 喜欢直接讲道理,人类喜欢留白。
    2. 线性结构:AI 偏好单线程推进,人类擅长非线性跳跃。
    3. 情绪表达:AI 依赖生理描写替代情绪标签,人类直接使用情绪词汇。
    4. 读者互动:AI 缺乏读者意识,人类常打破第四面墙进行互动。
    5. 角色深度:AI 主角道德单一,人类主角更具道德复杂性和多面性。
  • 模型间存在“叙事指纹”:不同大模型(如 Claude、GPT、Gemini)具有可识别的特定叙事偏好,可用于识别具体生成源。
  • 去 AI 味的局限性:修改词汇、句式和标点无法改变 AI 的底层叙事结构,要求 AI 模仿不同风格也难以消除其叙事层面的趋同性。

意义与影响

这项研究对当前的 AI 内容创作生态产生了深远影响。首先,它终结了“通过提示词工程即可完全消除 AI 痕迹”的幻想,指出 AI 写作的局限性根植于其训练范式和缺乏真实生命体验的本质。其次,StoryScope 工具及其公开的数据集(包括 10,272 个提示和 51,336 篇 AI 生成文本)为学术界和业界提供了一套穿透表层、直达叙事底层的“照妖镜”,有助于建立更严谨的 AI 内容鉴别标准。

在文学界,随着《林间之蛇》等作品引发 AI 写作争议,该研究为界定“原创性”和评估 AI 辅助创作的伦理边界提供了实证依据。对于创作者而言,研究提醒人们:AI 可以辅助生成通顺的文字,但无法替代人类对生活的独特经历和情感共鸣。未来的创作重点应从“如何模仿人类风格”转向“如何利用 AI 拓展叙事可能性”,同时坚守人类独有的叙事深度和情感真实。

查看原文 →tmtpost.com