技术博客arXiv cs.CL·13 小时前

从早期数字方法到大模型：科学概念的计算概念史

原标题：Computational conceptual history of scientific concepts: From early digital methods to LLMs

速览

本文探讨了大语言模型在科学、哲学和社会学领域的概念分析历史中的地位。研究回顾了早期数字方法、分布语义及词汇语义变化检测，并分析了大模型如何继承和解决这些问题。通过案例研究，文章展示了大模型在语料构建、模型选择及评估解释等方面的具体应用与权衡。

AI 深度解读

科学概念的计算概念史：从早期数字方法到大语言模型

背景

在科学史、科学哲学和社会学（HPSS）领域，对“概念”的分析一直是核心议题。传统的概念史研究主要依赖人文主义者的文本细读和定性分析，这种方法虽然深刻，但在处理海量历史文献时往往显得力不从心。随着计算社会科学和人文学科的交叉融合，研究者开始尝试利用计算机技术来量化和分析概念在历史长河中的演变。

近年来，大语言模型（LLMs）的爆发式增长引发了学术界对其在人文研究中应用潜力的广泛讨论。然而，许多关于 LLM 在概念分析中应用的讨论往往将其视为一种全新的、孤立的技术突破，而忽视了其背后的方法论传承。本文旨在将 LLMs 置于更长的历史脉络中，回顾在 LLM 出现之前，HPSS 领域是如何利用早期数字方法进行概念分析的，并探讨 LLMs 究竟为这一领域带来了哪些增量价值，又继承了哪些长期存在的难题。

核心内容

文章将计算概念史的发展划分为两个主要阶段进行详细阐述：LLMs 出现前的早期数字方法阶段，以及 LLMs 主导的当前阶段。

1. LLMs 之前的计算概念史

在 LLMs 普及之前，计算概念史的研究主要汇聚了三个不同的工作流派：

HPSS 中的早期数字方法：这是最直接的先驱，研究者开始尝试将计算机辅助文本分析引入科学史和科学哲学研究，主要用于简单的词频统计或早期共现分析。
数字历史中的分布主义方法（Distributional Approaches）：受数字历史学影响，研究者利用大规模语料库，通过词语在上下文中的分布模式来推断词义。这种方法基于“一个词的意义由其周围的词决定”这一假设，是后续词向量技术的前身。
词汇语义变化检测（Lexical Semantic Change Detection）：专门针对词汇随时间发生意义漂移的现象进行建模和检测的技术研究。

在这一阶段，研究者面临的主要挑战集中在以下三个方面：

语料库构建：如何从历史档案中清洗、标注并构建高质量、具有时间序列特征的数据集。
操作化与建模选择：如何将抽象的“概念”转化为可计算的数学模型，以及选择合适的统计方法或机器学习算法。
评估与解释：如何验证计算结果的准确性，以及如何将统计显著性转化为具有人文意义的历史解释。

2. LLMs 时代的计算概念史

文章的第二部分聚焦于 LLMs 引入后的范式转变。首先简要介绍了 LLMs 的基本原理及其在自然语言处理中的优势，随后回顾了基于 LLMs 的词汇语义变化检测研究，以及 HPSS 领域中近期使用 LLMs 进行的案例研究。

与早期方法相比，LLMs 在基于工作流的方法中重新引发了早期的方法论问题，但表现形式更为复杂：

语料库构建与训练数据：LLMs 的效果高度依赖于其预训练数据。文章指出，LLMs 的训练数据本身可能存在历史偏差或覆盖不全，这直接影响了其在特定科学史概念分析中的表现。
模型选择与操作化权衡：虽然 LLMs 提供了强大的上下文理解能力，但研究者需要在“黑盒”模型的强大能力与可解释性之间做出权衡。如何定义和提取概念，依然是一个需要精心设计的操作化过程。
评估与解释的新挑战：LLMs 生成的输出往往更加流畅和自然，但这并不意味着其历史解释是准确的。文章强调，在 LLM 工作流中，评估不再仅仅是计算指标的优化，更需要结合领域专家的知识进行深度解读，以区分模型是真正理解了概念演变，还是仅仅在模仿语言模式。

关键要点

历史连续性：LLMs 并非凭空出现的技术奇迹，而是建立在数十年来 HPSS 领域数字方法、分布主义语义学和语义变化检测研究基础之上的延续。
三大核心挑战未变：无论技术如何迭代，语料库构建的质量、概念操作化的合理性、以及结果评估与解释的严谨性，始终是计算概念史研究的三大核心支柱。
LLMs 的增量价值：LLMs 提供了更强大的上下文感知能力和零样本/少样本学习潜力，使得处理非结构化历史文本和捕捉细微语义变化成为可能。
继承的长期问题：LLMs 并未解决历史数据偏差、概念定义的模糊性以及“黑盒”模型的可解释性问题，反而在某些方面（如幻觉、训练数据偏见）加剧了这些挑战。
方法论反思：文章呼吁研究者不要盲目崇拜 LLMs 的能力，而应将其置于方法论框架中进行审视，明确其在特定历史语境下的适用边界和局限性。

意义与影响

这篇文章对于数字人文、科学史研究以及人工智能伦理领域具有重要的指导意义。

首先，它提供了一种去神话化的视角。在 LLMs 热潮中，许多研究者倾向于将其视为解决所有文本分析问题的万能钥匙。本文通过梳理历史脉络，提醒学术界保持冷静，认识到当前技术只是漫长方法论演进中的一个节点，而非终点。

其次，它强调了跨学科合作的重要性。计算概念史的成功不仅取决于算法的先进性，更取决于 HPSS 领域专家对历史语境、概念演变逻辑的深刻理解。LLMs 只是工具，真正的洞察来自于计算能力与人文批判性思维的有机结合。

最后，文章为未来的研究指明了方向。它指出，未来的工作重点不应仅仅是测试 LLMs 在基准测试上的表现，而应深入探讨如何构建更公平、更具历史代表性的训练数据，如何开发可解释性更强的模型，以及如何建立更严谨的评估体系，以确保计算得出的历史结论经得起学术推敲。这对于推动计算社会科学向更成熟、更负责任的方向发展至关重要。

查看原文 →arxiv.org