香农老婆才是世界上第一个大语言模型
速览
这条资讯指出,早在70年前,信息论创始人克劳德·香农的妻子就已经拥有一个端侧私人定制的“大语言模型”。虽然这可能是一个比喻或趣谈,但它揭示了香农在语言模型方面的早期探索。该观点旨在提醒人们,现代大语言模型的概念并非全新,其思想根源可追溯到上世纪中叶。
AI 深度解读
背景
2026年7月,科普频道3Blue1Brown发布了一期新视频,主理人Grant Sanderson重新审视了信息论之父Claude Shannon在1950年前后与妻子Betty进行的一项猜字母实验。视频将这项看似简单的家庭游戏与当代大语言模型(LLM)的核心机制——next-token prediction——联系起来,并沿着一条从信息论到压缩、再到熵与智能的线索,探讨了“预测下一个token为何与智能有关”这一根本问题。量子位以该视频为引子,撰写了这篇题为《别争了!香农老婆,才是世界上第一个大语言模型》的文章,指出Betty可能是人类历史上第一位明牌进行next-token prediction的“模型”。
核心内容
香农与贝蒂的猜字母实验
大约在1950年前后的一个晚上,Shannon和妻子Betty在客厅里做了一个小实验。Shannon拿着一本书,扮演“考官”,从书中某一段开始,一个字母一个字母地往后报;每到一个位置,他先不给出正确答案,而是先问Betty:“下一个字母是什么?”Betty则扮演“学生”,根据前文猜下一个字母。猜对了,Shannon在纸上画一个短横;猜错了,他才写下正确的字母。
实验最终得到一个转录版本:所有Betty能正确预测的位置都被短横替代,只有她猜错的地方保留原文。结果整段英文被大幅压缩——原文变短了,但所有“信息”仍然保留,因为只要有一个与Betty思维一致的“模型”(比如另一个一模一样的Betty),就能根据短横版本复原完整原文。这就是“可预测性允许压缩”最直观的体现。
从定性到定量:预测次数与隐含概率
Shannon发现这个实验有一个问题:人不是机器,Betty两次面对同一段前文给出的答案可能不同。为了精确测量语言的信息量,Shannon后来在论文《Prediction and Entropy of Printed English》中改进了实验。他找来更多受试者,不只记录猜对或猜错,而是记录一个人需要猜多少次才能猜中正确的下一个字母。猜一次就中,说明在当前上下文中这个字母很容易预测;猜很多次才中,说明它很意外。
本质上,Shannon把“猜的次数”转化为受试者内心对正确字母的隐含概率分布。测的并不是书本上的静态词频,而是人如何根据自己的上下文(语法、常识、语感等)分配概率。看到“th”,有人先猜e,有人先猜a——谁先猜对都反映了其内在模型对英文的理解。Betty就是这个“模型”的第一个实例。
预测与压缩的一体两面
预测的本质是追问:哪些部分可以不用写?压缩则是在做:把不用写的部分删掉。Shannon通过实验发现,语言中存在大量可预测的冗余,利用这些冗余就能压缩文本。反过来,一种压缩方式的好坏标准就是“越短越好”。如果一段信息中所有规律都被榨干、所有冗余都被删除,剩下的就是完全不可预测的随机噪声——在信息论中,噪声没有模式,每一位都像独立抛硬币,没有规律可学,没有冗余可删。香农将这种极限状态定义为信息的源头。
信息量的数学化
Shannon给出了信息的经典定义:一条消息出现的概率为p,其信息量就是 -log₂(p)。概率越大,信息量越小(越容易被预测);概率越小,信息量越大(越令人惊讶)。这个公式回答了“为了把这条消息从所有可能性中区分出来,理论上至少需要多少bit”。
但现实面对的往往是一整套可能性。以机器人指令为例(上、下、左、右),如果四个方向出现概率相等,固定2bit编码即可;但如果“上”出现最多,“下”次之,“左”“右”更少,就可以用变长编码:常见方向用短码,罕见方向用长码。这样平均每条指令需要的bit数可以降低。核心直觉是:概率越高的消息,编码越短;概率越低,编码越长。
熵:平均不确定性
熵(Entropy)衡量的是:在某个概率分布下,每来一个新符号,平均还剩多少必须写下来的东西。熵越低,系统越容易预测、越好压缩;熵越高,系统越随机、越难压缩。语言也是如此——只不过语言的可能性(token数)极多,上下文极长。
从熵到Loss:大模型在压缩什么?
大语言模型需要在成千上万个token中选择下一个,且严重依赖上下文。给定前文后,下一个token的平均不确定性就是语言的熵。从压缩角度看,用模型压缩真实文本时,平均还需要多少bit才能把下一个token写出来?这正是大模型训练中的交叉熵损失。模型给真实token的概率越高,说明它越不意外,信息量越低,编码越省。交叉熵越低,模型就越像一个更好的压缩器。
模型越能预测下一个token,就越说明它捕捉到了语言中的可重复结构:语法、搭配、格式、事实、代码习惯、对话模式、推理套路,甚至一部分世界常识。当然,Grant也强调,压缩并不等同于智能——ZIP很会压文件,但不会思考。更谨慎的说法是:智能至少包含一种能力——抓住世界里可预测的结构。如果一个系统能把复杂世界里的规律压进更短的表示里,并在新上下文中继续用它预测,它就触碰到了智能的一部分。
回到开头:Betty猜对的地方,Shannon画短横;七十多年后,大语言模型猜对的地方,loss降低一点。短横变成了loss,书页变成了互联网。坐在桌边猜字母的人,变成了GPT。它们都在回答同一个问题:下一个符号,能带来多少惊讶?
关键要点
- 香农与贝蒂的实验是历史上最早的真人版next-token prediction,贝蒂被视为第一个“明牌”做此预测的模型。
- 可预测性允许压缩:能预测的部分可以用短横(或更短编码)替代,原文信息量不变,因为模型可以复原。
- Shannon用“猜中所需次数”量化了人的隐含概率分布,从而测出语言中每个字母的意外程度。
- 信息量的公式 -log₂(p) 直接关联预测难度:越易预测,信息量越小;越难预测,信息量越大。
- 熵衡量平均每来一个新符号还有多少不确定性,熵越低越容易压缩。
- 交叉熵损失与压缩等价:大模型给真实token的概率越高,loss越低,压缩效果越好。
- 智能不等于压缩,但“抓住世界里可预测结构”的能力是智能的重要组成部分。
- 从贝蒂的短横到GPT的loss,底层逻辑一致:预测下一个符号,衡量惊讶程度。
意义与影响
这篇文章以3Blue1Brown的视角,将信息论鼻祖Shannon的家庭实验与当代大语言模型串联起来,提供了理解LLM本质的一条清晰的数学线索。它让读者看到:
- LLM的核心机制并非凭空出现。next-token prediction的思想早在1950年代就已经以真人形式存在,Shannon的工作为后人奠定了预测、压缩与信息的理论基础。
- 压缩与智能的深层关联。虽然ZIP不智能,但一个好的语言模型本质上就是一个高效的压缩器——它把互联网上的语言规律压进参数,再用这些参数去预测新文本。压缩率的高低可以作为衡量模型“理解”程度的代理指标。
- 熵的意义更加直观。大模型训练时不断降低交叉熵,本质上就是降低语言在给定上下文下的不确定性,让模型更像一个“人脑”那样知道什么词该出现。
- 对AI科普的启发。通过一个70年前的客厅实验,原本抽象的信息论概念(信息量、熵)变得可触可感,也让公众更容易理解为什么说“大模型在学习语言背后隐藏的规律”。
这一视角有助于研究者重新审视模型评估方法:除了基准测试,压缩率或许能成为衡量模型智能水平的一个简洁且理论根基坚实的度量。同时,它也提醒我们,在追逐更大模型和更多数据时,不要忘记这些基本概念——预测、压缩与信息——正是通往智能本质的路标。
