为何谷歌的AI连“Google”都拼不对
速览
谷歌近期再次因AI模型出现基础拼写错误而陷入尴尬境地,甚至无法正确拼写自身品牌名称。这一事件不仅凸显了大型语言模型在基础事实准确性上的脆弱性,也引发了业界对当前AI技术成熟度的质疑。此类低级错误严重损害了用户信任,表明AI在可靠性方面仍有巨大提升空间。
AI 深度解读
为什么 Google 的 AI 连“Google”都拼不对?
背景
Google 近期对其拥有 29 年历史的旗舰产品 Search 进行了重大改版,大力推行以生成式 AI 为核心的“AI 概述”(AI Overview)功能。然而,这一旨在提升搜索体验的举措并未如预期般顺利,反而因一系列令人啼笑皆非的基础错误而引发争议。
此前,当 Google 首次引入 AI Overview 时,该功能曾引用《洋葱报》(The Onion)和 Reddit 上的讽刺帖子,甚至建议用户“吃石头”或在披萨上涂胶水。此次改版中,Google 加倍投入资源,试图将生成式 AI 确立为搜索体验的中心,但随之而来的却是更为明显的失误。用户发现,Google 的 AI 不仅无法正确拼写“Google”本身,还在处理其他基础词汇时出现了严重的逻辑和拼写错误。
核心内容
根据 TechCrunch 的报道,Google 的 AI Overview 在基础拼写和计数任务上表现糟糕,暴露了大型语言模型(LLM)在底层架构上的固有缺陷。
具体的错误案例包括:
- 拼写“Google”: 当被问及“Google 中有几个 P”时,Google 的 AI 回答有两个。
- 拼写“poop”: AI 声称单词“poop”中“恰好有 1 个 r”,尽管该词中并没有 r。
- 拼写“journalism”: AI 指出单词 journalism 中有两个 d,但它将其拼写为 “j-o-u-r-n-a-d-i-s-m”。
- 拼写总统姓氏: AI 正确识别出美国总统姓氏中有一个 P,但将其拼写为 “t-r-p-u-m”。
除了这些令人捧腹的拼写错误,AI 还出现过其他荒谬的回答。例如,搜索“disregard”一词时,AI 曾给出一个看似字典定义的回复,内容却是:“明白了。当你有新提示或问题时请告诉我!”尽管 Google 已修复了部分此类问题,但拼写错误因其难以根除且极具娱乐性而持续存在。
技术根源解析: 这些错误并非偶然,而是源于 LLM 的底层工作原理。研究人员指出,AI 并不像人类那样将句子视为由单词和字母组成的语言单位。
- Tokenization(分词)机制: 大多数 LLM 基于 Transformer 架构构建。当输入提示词时,文本会被转换为数值表示(encoding),并被分解为“tokens”。这些 tokens 可以是完整的单词、音节或字母,具体取决于模型。
- 缺乏字符级感知: 正如阿尔伯塔大学 AI 研究员 Matthew Guzdial 所指出的,LLM 实际上并没有在“阅读”文本。当模型看到单词“the”时,它拥有代表“the”含义的一个编码,但它并不知晓其中的 “T”、“H” 或 “E”。
- 分词的模糊性: 东北大学研究大语言模型可解释性的博士生 Sheridan Feucht 表示,很难为语言模型定义什么是完美的“单词”。即使专家能达成完美的 token 词汇表共识,模型可能仍需要进一步“分块”(chunk)内容。因此,不存在完美的 tokenizer,这种模糊性使得解决拼写问题变得极其困难。
尽管这些错误看似低级,但它们提醒我们,尽管 AI 能在几秒钟内编写代码或解决困扰数学家数十年的问题,但在拼写方面,它可能还不如幼儿园小朋友。
关键要点
- LLM 的固有局限: 计数单词内的字母或进行精确拼写一直是 LLM 的已知挑战。Google 向 TechCrunch 确认,他们正在努力修复这一特定问题。
- 架构决定行为: 基于 Transformer 的架构将文本转化为数值编码和 tokens,而非逐字阅读。这意味着模型在处理字符级细节(如字母数量、特定字母的拼写)时存在天然盲区。
- 分词器的不完美: 由于语言处理的模糊性,不存在完美的 token 化方案。模型倾向于根据上下文将文本切分为不同的 token,这导致了对单词结构的理解与人类直觉相悖。
- AI 并非全知全能: 尽管 AI 在复杂推理和生成任务上表现出色,但这些明显的失败案例表明,用户不能盲目信任 AI 的输出,必须进行二次核实。
- 历史重演: 这并非 Google 首次因 AI 搜索功能出错而遭遇批评。从引用讽刺内容到给出荒谬建议,AI 在融入传统搜索产品时仍面临巨大的信任挑战。
意义与影响
Google AI Overview 的拼写灾难虽然看似滑稽,但其背后的技术含义深远:
- 对 AI 能力的重新审视: 这一事件打破了公众对 AI “无所不能”的幻想。它清晰地表明,即使在最先进的模型中,基础的语言处理能力(如拼写和计数)依然脆弱。这有助于用户建立更理性的预期,避免过度依赖 AI 进行事实核查。
- 技术发展的瓶颈: 它揭示了当前主流 LLM 架构(基于 Transformer 和 Tokenization)在处理精确字符任务时的根本性限制。解决这一问题可能需要超越现有架构的创新,或者在应用层增加额外的校验机制,而非仅仅依靠模型本身的“学习”。
- 信任危机与监管压力: 随着 AI 更深入地嵌入搜索引擎等日常工具,准确性变得至关重要。频繁的明显错误会侵蚀用户信任,并可能引发更严格的监管审查,要求科技公司证明其 AI 输出的可靠性和安全性。
- 研究方向的启示: 虽然拼写问题对 LLM 的核心效用(如代码生成、复杂推理)影响有限,但它强调了可解释性和鲁棒性研究的重要性。研究人员需要更深入地理解模型如何处理语言单元,以便开发出更可靠、更透明的 AI 系统。
总之,Google 的 AI 拼错“Google”不仅仅是一个笑话,它是当前生成式 AI 技术局限性的一个缩影,提醒我们在拥抱技术红利的同时,必须保持批判性思维和对技术底层的清醒认知。
