技术博客arXiv cs.CL·3 小时前

AI编程代理可复现社会科学研究成果

原标题：AI Coding Agents Can Reproduce Social Science Findings

速览

研究引入SocSci-Repro-Bench基准，评估了Claude Code和Codex在社会科学领域的复现能力。结果显示，两者均能复现大量研究，其中Claude Code表现显著优于Codex，且远超通用大模型在同类任务中的表现。这表明前沿AI编程代理可作为计算工作流的可靠执行者，但也需警惕提示词设计带来的偏差。

AI 深度解读

AI Coding Agents Can Reproduce Social Science Findings：深度解读

背景

近年来，随着大型语言模型（LLM）和 AI 编程代理（Coding Agents）能力的飞速提升，学术界开始关注这些工具在科学研究中的潜在应用。 anecdotal evidence（轶事证据）表明，当提供原始数据和代码时，AI 编程代理能够复现已发表的研究成果。然而，目前针对社会科学领域的大规模系统性评估仍然非常有限。

现有的评估基准存在显著缺陷：要么规模过小，要么未能将代理本身的表现与复现材料中的问题（例如代码无法正确执行）区分开来。这种混淆使得难以准确衡量 AI 在科学复现中的真实能力。为了填补这一空白，研究人员引入了一个新的基准测试，旨在隔离并评估 AI 代理在复现社会科学发现方面的具体能力。

核心内容

本研究介绍了一个名为 SocSci-Repro-Bench 的新基准测试，并对两个前沿的 AI 编程代理——Claude Code 和 Codex——进行了评估。以下是研究的核心发现和方法论细节：

1. SocSci-Repro-Bench 基准测试构建

该基准测试包含 221 个任务，涵盖 4 个学科和 13 个实质性领域。其构建逻辑具有独特的严谨性：

可复现组：选取那些利用现有材料即可完全复现结果的研究。
不可复现组：选取那些因数据缺失而明确无法复现的研究。这种设计允许研究人员将 AI 代理的“复现能力”与“材料缺陷”隔离开来，从而更准确地评估代理本身的技术水平。

2. 前沿代理的表现评估

研究对 Claude Code 和 Codex 两个前沿编程代理进行了测试，主要发现如下：

高复现率：两个代理都能复现大量社会科学发现。
性能差异：Claude Code 的表现显著优于 Codex。
超越基线：这两个代理的复现率远高于此前在类似可复现性基准测试中报告的基于通用 LLM 的代理的表现。

3. 推理能力与记忆机制分析

推理任务：两个代理在识别潜在研究问题的推理任务中也表现出色。
非记忆驱动：额外的分析表明，代理的成功并非主要依赖于对训练数据的记忆，而是基于其理解和执行代码的能力。

4. 提示工程与偏差分析

PDF 辅助的影响：在提供原始论文 PDF 文件 alongside 复制材料时，代理的性能有轻微提升。然而，这种增强也引入了偏差，特别是在那些本就不可能复现的任务中，代理可能会产生错误的自信或幻觉。
确认性规范搜索：研究还发现，通过微妙的提示框架（prompt framing），可以引导代理倾向于进行“确认性规范搜索”（confirmatory specification search），即倾向于寻找支持预设假设的代码路径，而非探索性分析。

关键要点

新基准发布：推出了 SocSci-Repro-Bench，包含 221 个任务，覆盖 4 个学科和 13 个领域，通过区分“可复现”与“因数据缺失不可复现”的研究，隔离了代理的真实复现能力。
前沿代理优势明显：Claude Code 和 Codex 均能复现大量社会科学发现，且 Claude Code 显著领先于 Codex。
超越现有基线：这些代理的复现率远高于之前基于通用 LLM 的代理在可比基准上的表现。
具备推理能力：代理不仅能执行代码，还能有效识别潜在的研究问题，且结果并非主要由记忆驱动。
PDF 输入的双刃剑：提供原始论文 PDF 可轻微提升性能，但可能在不可复现任务中引入偏差。
提示工程的影响：细微的提示框架变化可以引导代理进行确认性规范搜索，提示设计对科学产出至关重要。

意义与影响

这项研究标志着 AI 在科学研究中角色的一个重要转折点。

首先，它证明了至少部分前沿 AI 编程代理可以作为计算工作流（computational workflows）的可靠执行者。这意味着 AI 不再仅仅是代码生成的辅助工具，而是能够独立承担复杂的科学复现任务，这对于加速社会科学研究的验证过程具有重要意义。

其次，研究强调了基准测试和提示设计在 AI 科学应用中的关键作用。随着 AI 系统在科学生产中承担更大的角色，研究人员必须谨慎设计评估基准，以区分代理能力与数据缺陷，并需精心设计提示词，以避免代理陷入确认性偏差或产生幻觉。

最后，该研究为未来的 AI 辅助科学研究提供了方法论参考：通过构建包含“正例”（可复现）和“负例”（不可复现）的基准，可以更准确地评估和训练 AI 代理，确保其在科学发现中的可靠性和严谨性。

查看原文 →arxiv.org