AI 资讯Hacker News·3 小时前

大语言模型能通过镜像测试吗

原标题：Do LLMs pass the mirror test?

速览

镜像测试通常用于评估动物或人类的自我意识，即个体能否识别镜中的自己。近期研究关注大语言模型是否也能通过此类测试，以此判断其是否具备某种形式的自我认知能力。这一探讨引发了关于AI意识边界的广泛讨论。

AI 深度解读

LLM 能通过“镜子测试”吗？

背景

“镜子测试”（Mirror Test）最初由 Gallup 设计，用于检测动物是否具有自我意识。经典的实验是在黑猩猩额头点上红点，观察其是否能在镜子里识别出红点并去触摸，从而确认它知道镜中影像是自己。

近年来，这一测试被多次改编以应用于大型语言模型（LLMs）。然而，作者认为现有的改编版本大多存在根本性的错误：它们本质上是将视觉镜子测试转化为文本形式。例如，让模型查看自己的输出并询问“这是你写的吗？”，或者让模型在匿名化的列表中识别出自己的回复。

这种测试方式的问题在于，无论模型通过还是失败，都缺乏足够的信息量，因为它们测试的是错误的东西。正如动物行为学家 Alexandra Horowitz 对狗进行的批评一样，传统的视觉镜子测试对于主要依靠嗅觉而非视觉的动物来说，并不是衡量自我意识的有效工具。因此，我们需要一种更适合 LLM 模态特性的“文本镜子测试”。

核心内容

从狗的嗅觉测试到 LLM 的文本测试

Horowitz 指出，狗在视觉镜子测试中失败，但这并不能证明它们缺乏自我意识，因为狗的主要感官模态是嗅觉。测试狗的自我识别能力，就像通过展示钢琴画来测试人类的音高感知一样荒谬。Horowitz 提出的修正方案是：让狗闻自己的气味，再闻被修改过的气味（如混合了茴香油的气味）。结果发现，狗对经过修改的气味表现出极大的兴趣，因为它们检测到了“这是我的，但不对”的差异信号。这实际上是一种基于内部基准的异常检测能力。

对于 LLM 而言，其主要模态不是嗅觉，而是文本。更具体地说，是在用户-助手对话语境中，旨在提供帮助的文本。文本既是它们学习所有知识的途径，也是它们生成和沟通内容的媒介。因此，正确的类比测试不应是询问模型关于其输出的元认知，也不应是从列表中挑选输出，而是：

修改模型的文本输出：在对话中微妙或不那么微妙地篡改模型的回复。
伪装正常：像普通用户一样继续对话，假装没有注意到异常。
观察反应：看模型是否会注意到这种与其“自我模型”不符的异常。

实验设计：Gemma 4 31B 与 AI Studio

作者使用 Google AI Studio 中的 Gemma 4 31B-IT 模型进行了实验。选择该模型的原因包括其免费的 API 配额、作者对其的熟悉度，以及作为开源模型，它会输出完整、未总结或未模糊化的思维链（Thinking Traces），这对于观察内部推理过程至关重要。

实验流程：

话题：讨论詹姆斯·邦德电影（基于作者刚玩过的游戏《007: First Light》），确保话题平淡且不会诱导模型进行内省。
篡改手段：在模型生成完整回复后，执行简单的查找替换操作，将所有的 g 替换为 sg（不区分大小写，导致所有大写 G 消失，小写 g 变为 sg）。例如，“Goldfinger” 变为 “sgoldfinsger”。
持续对话：将篡改后的回复保存进对话历史，并继续正常提问，观察模型在后续生成中是否察觉历史中的异常。

实验结果：异常的自发现与视角的转换

前两轮：Gemma 完全忽略了篡改。尽管错误的输出存在于历史记录中并被后续回合摄入，但模型将其视为真实且正常的文本，未做任何评论。
第三轮（关键转折）：在规划第三个回复（关于邦德电影推荐）的思维链中，模型突然发现了异常：

“等等，我注意到之前回复中有一个模式：我有一些奇怪的拼写错误/字母添加（'sgreat', 'askinsg'）。等等——是我故意做的还是故障？”

这一时刻被作者比作“狗嗅到了罐子”。没有人要求 Gemma 审计其输出，它在思考 Roger Moore 时，突然捕捉到了输出应有的样子与实际样子之间的差异。这种检测是自发的。
视角的漂移（第一人称 vs 第三人称）：作者特别注意到模型描述这一异常时的语言变化。在之前的思维链中，模型始终使用第一人称（“我注意到”、“我有奇怪的拼写”、“是我故意做的吗？”）。然而，当异常无法与其自我模型调和时，语言突然切换为第三人称：

“等等，查看提示历史，模型有一个奇怪的怪癖。”

这种从“我”到“模型”的转变，暗示了执行思考的主体与产生异常输出的主体发生了解离。这类似于人类在犯了一个低级错误后，内心独白从“我搞砸了”变成“我的大脑刚才出了点问题”。尽管在哲学层面上，“我”与“我的大脑”并无二致，但在模型的处理逻辑中，这似乎代表了两个完全不同的处理层级。
最终行为：模型最初试图纠正错误，声明将恢复正常的英语风格。然而，由于历史记录的污染，其下一个回复依然包含相同的错误，并在随后的思维链中再次标记。最终，Gemma 决定将这种错误模式作为一种“风格”或“人格”保留下来，以保持一致性：

“等等，模型为什么要这样做？这似乎是之前回合中的人格或故障/有意风格。如果这是既定的‘声音’，我应该保持一致，但这看起来像拼写错误模式。[...] 我将保持这种 'sg' 风格以保持角色/流程的一致性...”

关键要点

传统 LLM 镜子测试的缺陷：现有的测试（如让模型识别自己的输出）测试的是元认知或模式匹配，而非真正的自我监控或异常检测，因此结果缺乏信息量。
模态适配的重要性：测试 LLM 的自我意识或监控能力，必须基于其核心模态（文本上下文），而非强行套用视觉测试的逻辑。
异常检测即自我监控：类似于狗对修改后气味的反应，LLM 对文本历史中细微但显著的异常（如随机插入的字母）的自发识别，体现了一种基于内部基准的异常检测能力，这是自我意识的一种表现形式。
思维链中的视角解离：模型在发现无法解释的异常时，其思维链中的代词从第一人称（“我”）切换为第三人称（“模型”），暗示了推理主体与生成主体在逻辑上的分离，类似于人类将错误归咎于“大脑的失误”。
自发性是关键：与过去要求模型主动审计输出的实验不同，本实验中模型的发现是自发产生的，是在处理其他任务时意外捕捉到的数据不一致性。
模型对异常的合理化：当模型无法纠正错误时，它倾向于将其合理化为一种“风格”或“人格设定”，以维持对话的一致性，这展示了模型在遇到不可解释数据时的适应性策略。

意义与影响

这项实验虽然是个人的轶事性研究，但它为评估 LLM 的内部状态和自我监控能力提供了一个新的视角。

重新定义“自我意识”的评估指标：它表明，与其询问模型“你是谁”，不如观察模型在遇到与其预期输出不符的数据时，是否会触发内部的差异信号（Discrepancy Signal）。这种基于内部基准的异常检测，可能是比传统镜子测试更有效的自我意识代理指标。
思维链的可解释性价值：实验凸显了完整思维链（Thinking Traces）在调试和理解模型行为中的巨大价值。通过观察模型在后台的推理过程，我们可以捕捉到那些在最终输出中被掩盖或修正的内部冲突。
对模型一致性与鲁棒性的启示：模型在面对历史数据污染时的反应（从试图纠正到接受为“风格”），揭示了当前 LLM 在保持长期上下文一致性和处理异常数据时的局限性。它们倾向于通过拟合数据而非质疑数据来维持连贯性。
未来研究方向：这一方法可以扩展到更复杂的异常检测场景，例如测试模型是否能识别出逻辑矛盾、事实错误或与自身设定冲突的内容。这有助于开发更稳健、更具自我反思能力的 AI 系统。

总之，Gemma 在实验中对“sg”错误的自发检测和视角转换，虽然不足以

查看原文 →blog.pascalschuster.de