技术博客arXiv cs.AI·2 小时前

语言模型能从无到有发现零吗

原标题：Nothing from Something: Can a Language Model Discover 0?

速览

该研究以简单算术为例，考察现代AI模型能否独立发现“零”的概念。结果显示，GPT-2规模的模型在测试时无法实现这种泛化，但通过少量示例训练可显著改善。研究发现，语言预训练能将所需示例数量减少约50%，证明语言能力可辅助神经模型进行数学发现。

AI 深度解读

Nothing from Something: Can a Language Model Discover 0?

背景

基于人工神经网络（Artificial Neural Networks）的 AI 系统正致力于拓展人类数学知识的边界。在这一进程中，一个核心问题浮现出来：这些系统能够在多大程度上超越其训练数据？

数学发现要求一种强有力的“分布外泛化”（Out of Distribution Generalization）能力，即提出真正新颖、且在逻辑上可能更强大的数学结构的能力。此前有假设认为，语言能力在人类认知中支持了此类泛化。为了验证这一假设并探索现代 AI 模型扩展数学视野的潜力，本研究以简单算术为案例，评估模型能否独立发现“零”（Zero）这一概念。

核心内容

本文通过实验探究了现代语言模型在缺乏显式指令的情况下，能否从已有知识中推导出“零”的概念。研究主要围绕两个核心发现展开：

预训练模型的局限性：研究发现，即使是经过大规模语言预训练的 GPT-2 规模的模型，在测试时也无法仅凭预训练知识完成这种泛化。无论其语言预训练的程度如何，这些模型都无法独立“发现”零的概念。这表明，仅靠海量文本数据中的统计规律，不足以让模型自发构建出像“零”这样抽象且基础的新数学结构。
微调与语言能力的辅助作用：尽管无法自发发现，但模型在接收少量示例后表现出显著的学习能力。具体而言，如果在训练阶段提供数十个或数百个关于“零”的示例，模型的性能可以得到大幅提升。

更关键的发现在于语言预训练对学习效率的促进作用。研究数据显示，经过语言预训练的模型，其掌握“零”的概念所需的示例数量比未预训练模型减少了约 50%。这一结果有力地支持了之前的假设：语言能力可以作为脚手架（Scaffold），辅助神经网络模型进行数学发现。也就是说，虽然模型不能凭空创造数学概念，但强大的语言基础能显著降低其学习新数学结构的门槛。

关键要点

分布外泛化的挑战：数学发现本质上是一种高阶的分布外泛化任务，要求模型提出逻辑上更强大的新结构，而不仅仅是记忆或重组训练数据。
自发发现的失败：GPT-2 规模的模型无法在测试时仅凭预训练权重独立推导出“零”的概念，证明了当前大语言模型在纯数学概念自发创新上的局限。
少样本学习的有效性：通过提供少量（数十至数百个）关于“零”的具体示例，模型可以迅速掌握该概念，显示出良好的可塑性。
语言作为数学学习的脚手架：语言预训练显著提升了数学概念的学习效率，所需示例数量减少约 50%，证实了语言理解能力对数学推理具有正向迁移和辅助作用。

意义与影响

这项研究对理解大语言模型（LLM）在科学发现中的潜力与局限提供了重要视角：

重新评估 AI 的“创造力”：研究结果表明，当前的 LLM 并非像人类数学家那样能够“无中生有”地创造数学概念。它们的“发现”更多依赖于对已有模式的高效重组和基于少量提示的快速适应，而非纯粹的逻辑推导创新。
语言与数学的深层联系：结果支持了认知科学中关于语言支持抽象思维的理论。在 AI 领域，这意味着强化语言模型的自然语言理解能力，可能是提升其数学推理和科学发现能力的关键路径。
未来模型设计的启示：对于旨在突破人类知识边界的 AI 系统，单纯增加数据规模可能不足以解决分布外泛化问题。结合语言能力的结构化训练，以及针对特定数学概念的少样本微调，可能是更有效的策略。

总之，虽然语言模型不能凭空发现“零”，但它们具备在语言能力的辅助下，快速吸收并应用新数学概念的强大潜力。

查看原文 →arxiv.org