← 返回信息流
Agent SkillLINUX DO · AI·2026/4/15

AI科研不完全指北:Top10 PhD分享上万刀烧出的真实经验

原标题:AI科研不完全指北:Top10 PhD烧了上万刀的真实经验。 Context Is All You Need

速览

本文作者为Top10高校CS博士生,分享利用Claude、GPT等高端模型进行深度学习科研的真实踩坑经验。文章强烈反对依赖开箱即用的通用Agent框架,指出其无法替代针对特定领域的定制工作流。核心观点认为“Context Is All You Need”,严格管控上下文质量是确保AI科研结果真实、可复现的关键。

AI 深度解读

背景

这篇文章的写作动机源于对网络上泛滥的“AI 科研终极指南”类文章的反思。作者指出,许多此类教程往往是将多篇文章拼凑后由 AI 自动生成,虽然流程图画得精美、工具列表齐全,但严重简化了科研中最艰难、最痛苦的部分,给读者造成“AI 已彻底解决科研问题”的错觉。

作者作为一名 Top 10 计算机博士(CS PhD),拥有 CVPR、ICCV、ICML、NeurIPS 等顶会发表经验及审稿人身份,旨在通过分享自己花费上万刀订阅费、反复迭代验证的真实经验,打破这种幻想。他强调,现有的通用自动化科研框架(如 Paper2Code、The AI Scientist 等)对产出高质量科研成果几乎无帮助,真正的关键在于根据特定领域定制 Workflow,并严格管控上下文(Context)。

核心内容

1. 核心认知:Context Is All You Need

作者认为,AI 在科研中最大的敌人不是智力不足,而是被污染的上下文。模型无法修复一个 Bug,往往是因为上下文已经被之前的错误引导带偏。整个 Workflow 的设计核心在于“管住每一个 Session 的上下文”,确保模型在纯净、精准的信息环境中工作。

2. AI 做科研的底线

AI 参与科研必须守住三条底线,否则产出的只是“高精滤镜下的学术垃圾”:

  • 零造假:所有结论必须有明确出处。
  • 逻辑一致:提出的 Idea 与最终实现的 Method 必须完全一一对应。
  • 可复现性:实验结果必须由真实代码训练得出,他人按论文描述能复现一致结果。

3. 模型选择与协作策略

  • 主力模型:使用 Claude Opus 4.6、GPT-5.4 xHigh 以及 Gemini 3.1 Pro。作者强烈建议不要使用低智能模型进行科研探索。
  • Ensemble 策略:利用不同模型(Claude、GPT、Gemini)不同的知识覆盖、思考模式和幻觉倾向进行交叉 Review,这是一种无痛提升效果的集成(Ensemble)手段。
  • 拒绝伪需求:反对“AI 互相 Review”、“多元模型投票”等复杂且低效的自动化流程,认为手动迭代更高效。

4. 具体 Workflow 详解

文献调研

  • 工具选择:放弃全接 MCP 或 Zotero 的做法。最终选定 Gemini CLI 作为 Scout Agent,因其搜索能力最强,且能自然将结构化需求拆解为多角度搜索。
  • 筛选标准:重点关注顶会收录及附带开源代码的工作。
  • 上下文管理
    • 避免直接输入 PDF,优先使用 LaTeX 源文件或 Markdown。
    • 按需读取:调研阶段仅读取摘要和 Introduction,避免无关细节稀释注意力。
    • 核心价值:文献调研的本质是为大模型构建“领域专家级”的上下文,而非仅仅为了找 Idea。

确定与复现 Baseline

  • 必要性:绝大多数科研基于 Baseline 展开,复现 Baseline 是为后续实验建立可靠的“锚点”。
  • 痛点与解决方案
    • 环境陷阱:AI 在复现时容易陷入 pip 报错、进程卡死、网络波动等细节泥潭,且会因 sleep 调用浪费大量时间。
    • 上下文污染:在主线程运行复现任务会将报错日志灌入上下文,污染后续对话。
    • 最佳实践
      1. 使用 tmux 防止 SSH 断连导致进程丢失。
      2. 将复现任务交给 Sub-agent 或 Exec 执行,主线程只收结果。
      3. 最稳妥方案:由人类(Human in the loop)预先搭建好环境、下载好数据,或将干净的路径直接提供给模型,避免无休止的上下文污染。

提出 Idea

  • 发散阶段:由 Gemini 负责。因其搜索能力强且敢于“脑洞大开”,在仅接收文献调研结果和 Baseline 信息的干净上下文中,生成约 10 个 Idea。
  • 评审阶段:由 Codex 负责独立 Review。
    • 隔离性:每个 Idea 单独评估,Codex 仅看到对应的 Baseline 和当前 Idea 描述,避免偏见。
    • 维度:Novelty、技术可行性、兼容性、实现复杂度、预期提升。
    • 输出:生成包含评分和理由的 Idea Card,判定为 Go、Revise 或 Kill。
  • 决策阶段:由 Claude 根据 Ranking 结果拍板。
  • 迭代循环:从 Idea 到结果分析是循环过程。如果 Idea 不 Work 或结果有苗头但方法有问题,需跳回重新思考。真正的价值在于探索过程和结果分析,而非 Idea 本身。

关键要点

  • 拒绝开箱即用:通用的 Agent System 对高质量科研帮助有限,必须定制专属 Workflow。
  • 上下文即生命:被污染的上下文会导致模型能力崩溃式下降,必须严格隔离和管理每个 Session 的信息输入。
  • 模型分工明确
    • Gemini:强搜索、强发散,适合文献调研和 Idea 生成。
    • Codex:强逻辑判断,适合独立、隔离的 Idea 评审。
    • Claude/GPT:强智力与整合,适合最终决策、代码实现及论文写作。
  • 复现 Baseline 需人工介入:AI 自动复现环境极易出错且污染上下文,建议由人类预先完成环境搭建和数据准备,或采用 Human-in-the-loop 模式。
  • 科研真实性高于形式:AI 生成的精美论文若缺乏真实实验支撑和可复现性,即为学术垃圾。科研的核心是验证 Idea 和探索未知,而非生成文本。
  • 文献调研构建专家上下文:高质量的调研能为模型提供领域专家的视角,显著提升 Idea 的质量,避免“通用上下文”导致的浅层思考。

意义与影响

这篇文章打破了“AI 自动化科研”的泡沫,指出了当前 AI 辅助科研工具在实际落地中的巨大鸿沟。它强调科研的本质是严谨的逻辑验证和实验复现,而非文本生成。

对于研究者而言,其意义在于提供了一套经过实战检验的、基于“上下文工程”的 AI 协作范式。它提醒研究者,AI 不是替代者,而是需要被严格管控和引导的高级助手。只有当 AI 做出的科研保证真实性、可复现性和逻辑严密性时,AI 才能真正推动学科向前发展,而非制造更多精致的学术噪音。这一观点对于未来 AI 在科学发现领域的角色定位具有重要的纠偏意义。

查看原文 →linux.do