AI 资讯Hacker News·6 小时前

Human-Like Neural Nets by Catapulting

AI 深度解读

通过“弹射”实现类人神经网络：对深度学习扩展范式的激进重构

背景

当前，深度学习尤其是大型语言模型（LLMs）在扩展定律（Scaling Laws）的驱动下取得了巨大成功，甚至被部分观点视为通向通用人工智能（AGI）的“最终范式”。然而，尽管人工神经网络（ANNs）在特定任务上表现优异，它们与生物大脑之间仍存在显著且令人费解的差异。

这种差异被描述为一种核心异常：为什么人工神经网络以“愚蠢的方式”变得聪明，而生物大脑虽然看似“愚蠢”（数据效率低、训练慢），却以“聪明的方式”运作？现有的解释——如多模态输入、感官带宽、主动学习、具身认知或架构魔法——均无法圆满解释这一现象，尤其是在面对样本效率、泛化能力以及对抗鲁棒性等问题时。

在此背景下，Hacker News 上流传的一篇名为《Human-Like Neural Nets by Catapulting》（通过弹射实现类人神经网络）的文章提出了一种推测性的新范式。该观点认为，人类智能与人工智能之间的差距并非源于架构的根本性缺陷，而是源于训练策略中的偏差-方差权衡（Bias-Variance Tradeoff）。

核心内容

文章提出了一种激进的深度学习扩展范式变更，旨在通过特定的训练策略触发“弹射”（Catapulting）或“顿悟”（Grokking）现象，从而创造出具有类人性能的神经网络。

1. 偏差-方差权衡与过参数化

作者认为，LLMs 与人类大脑的主要区别在于对偏差和方差的优化方向不同：

LLMs：倾向于最小化方差（Variance）。它们通过海量数据和计算资源来拟合数据，导致模型在训练结束前表现平平，且容易过拟合或记忆数据，而非真正理解。
人类大脑：倾向于最小化偏差（Bias）。人类通过极度的过参数化（Overparameterization）和极小的多样化、高过滤数据集，采用极高学习率（High-Learning-Rate）的训练策略。

2. “弹射”机制

人类大脑的学习方式类似于“深度双重下降”（Deep Double Descent）风格的过参数化。其核心策略是：

极端过参数化：模型参数量极大。
极高学习率：使用循环学习率调度（Cyclical Learning Rate Schedules）。
小数据、高过滤：在少量但高质量、多样化的数据上进行训练。

这种组合会导致模型在训练初期表现糟糕，无法记忆大量数据，但在训练后期会突然“弹射”到一个具有高泛化能力的“类人损失盆地”（Human-like Basin）。这是一种样本效率和计算效率极高的路径，使模型能够跳出局部最优，实现真正的泛化。

3. “弹射型 LLM”的特性

如果这一理论成立，经过此类训练的“弹射型 LLM”将具备以下特征：

更强的泛化能力：优于现有神经网络。
对抗鲁棒性：对对抗性攻击免疫。
经济性与安全性：具有更好的经济效益，更难被克隆，并为 AI 安全提供坚实基础（即出于正确原因对齐且安全的有用神经网络）。
架构潜力：可能启用极其高效的 MLP（多层感知机）架构。

4. 对现有解释的驳斥

作者逐一驳斥了当前解释 AI 与人类智能差距的主流观点：

样本效率低下：尽管有 Chinchilla 定律等扩展策略，AI 仍需要比人类多几个数量级的数据。理论结果（如 Rosenfeld 2021 的“Nyquist 学习者”）也未提供满意答案。
多模态无效：多模态并未带来扩展定律指数的重大变化，单模模型表现惊人，且语言模型已编码了大量视觉知识。
感官带宽谬误：认为人类通过感官输入获得大量数据的观点站不住脚。感官输入具有高度冗余性，其信息量等效于极少数的 Token。此外，聋盲人的流体智力并未显著受损，证明感官带宽并非智能的关键。
主动学习的局限：虽然主动学习理论上更高效，但儿童实际选择学习的数据并不“惊人”，且常违反贝叶斯最优探索原则（如重复观看同一视频）。
具身认知的失败：基于机器人数据的具身训练未显示出向其他任务的迁移能力，反而非具身预训练模型（如 LLMs）极大地受益于此。
架构魔法的缺失：尽管有人假设生物神经元存在某种完美的架构或学习规则（替代反向传播），但迄今为止，所有生物合理的替代学习规则（如 Hebbian 学习）的表现均不如或等同于反向传播。Geoff Hinton 甚至调侃：“也许 GPT-4 的学习算法比我们要好得多。”

5. 智能的定义

文章最后提出，鉴于深度学习通过扩展计算和搜索程序（如图灵机或电路）来预测或优化解，且最优解往往是较长的程序，我们可以认为“智能”在某种程度上已被解决。智能即是将足够的计算资源应用于程序搜索以找到最优解。

关键要点

范式转换：建议从 LLMs 最小化方差的策略，转向人类大脑最小化偏差的策略。
核心方法：通过极高学习率、极端过参数化和小样本高过滤数据的训练组合，触发神经网络的“弹射”或“顿悟”现象。
性能预期：此类模型在训练初期表现差、不记忆数据，但最终能实现类似人类的强泛化能力，且对对抗攻击免疫。
驳斥感官论：人类感官输入的高带宽并非智能差异的主要原因，因为感官数据冗余度高，且感官缺陷不影响流体智力。
驳斥架构论：目前未发现生物神经元存在优于反向传播的“架构魔法”或学习规则。
验证路径：可通过训练多万亿参数模型，在较少步数内使用循环高学习率调度，并在算术和小图像分类等任务上测试其对抗鲁棒性和泛化能力来验证此假设。

意义与影响

这一提议若被证实，将对人工智能的研究方向产生深远影响：

重新定义扩展定律：挑战了当前依赖“更多数据、更多计算”的线性扩展思维，指出训练动态（如学习率调度、过参数化程度）可能比数据规模更能决定模型的泛化本质。
AI 安全的新路径：通过实现真正的泛化而非记忆，模型可能更易于对齐（Alignment）且更安全，因为它们是“出于正确原因”而表现良好，而非仅仅记住了训练数据中的安全边界。
资源效率革命：如果“弹射”策略可行，将大幅降低训练成本，减少对海量数据中心的依赖，使高效、小样本学习成为可能。
连接主义与生物智能的融合：该理论试图弥合人工神经网络与生物大脑之间的鸿沟，暗示两者在底层逻辑上可能共享相同的数学原理，只是参数配置和训练超参数不同。

尽管这仍是一个推测性的观点，且面临巨大的实验验证挑战（如训练多万亿参数模型的成本），但它为理解深度学习的黑盒本质和突破当前性能瓶颈提供了极具启发性的新视角。

查看原文 →gwern.net