Agent SkillLINUX DO · AI·2026/4/15

AI科研不完全指北：Top10 PhD分享上万刀烧出的真实经验

原标题：AI科研不完全指北：Top10 PhD烧了上万刀的真实经验。 Context Is All You Need

速览

本文作者为Top10高校CS博士生，分享利用Claude、GPT等高端模型进行深度学习科研的真实踩坑经验。文章强烈反对依赖开箱即用的通用Agent框架，指出其无法替代针对特定领域的定制工作流。核心观点认为“Context Is All You Need”，严格管控上下文质量是确保AI科研结果真实、可复现的关键。

AI 深度解读

背景

这篇文章的写作动机源于对网络上泛滥的“AI 科研终极指南”类文章的反思。作者指出，许多此类教程往往是将多篇文章拼凑后由 AI 自动生成，虽然流程图画得精美、工具列表齐全，但严重简化了科研中最艰难、最痛苦的部分，给读者造成“AI 已彻底解决科研问题”的错觉。

作者作为一名 Top 10 计算机博士（CS PhD），拥有 CVPR、ICCV、ICML、NeurIPS 等顶会发表经验及审稿人身份，旨在通过分享自己花费上万刀订阅费、反复迭代验证的真实经验，打破这种幻想。他强调，现有的通用自动化科研框架（如 Paper2Code、The AI Scientist 等）对产出高质量科研成果几乎无帮助，真正的关键在于根据特定领域定制 Workflow，并严格管控上下文（Context）。

核心内容

1. 核心认知：Context Is All You Need

作者认为，AI 在科研中最大的敌人不是智力不足，而是被污染的上下文。模型无法修复一个 Bug，往往是因为上下文已经被之前的错误引导带偏。整个 Workflow 的设计核心在于“管住每一个 Session 的上下文”，确保模型在纯净、精准的信息环境中工作。

2. AI 做科研的底线

AI 参与科研必须守住三条底线，否则产出的只是“高精滤镜下的学术垃圾”：

零造假：所有结论必须有明确出处。
逻辑一致：提出的 Idea 与最终实现的 Method 必须完全一一对应。
可复现性：实验结果必须由真实代码训练得出，他人按论文描述能复现一致结果。

3. 模型选择与协作策略

主力模型：使用 Claude Opus 4.6、GPT-5.4 xHigh 以及 Gemini 3.1 Pro。作者强烈建议不要使用低智能模型进行科研探索。
Ensemble 策略：利用不同模型（Claude、GPT、Gemini）不同的知识覆盖、思考模式和幻觉倾向进行交叉 Review，这是一种无痛提升效果的集成（Ensemble）手段。
拒绝伪需求：反对“AI 互相 Review”、“多元模型投票”等复杂且低效的自动化流程，认为手动迭代更高效。

4. 具体 Workflow 详解

文献调研

工具选择：放弃全接 MCP 或 Zotero 的做法。最终选定 Gemini CLI 作为 Scout Agent，因其搜索能力最强，且能自然将结构化需求拆解为多角度搜索。
筛选标准：重点关注顶会收录及附带开源代码的工作。
上下文管理：
- 避免直接输入 PDF，优先使用 LaTeX 源文件或 Markdown。
- 按需读取：调研阶段仅读取摘要和 Introduction，避免无关细节稀释注意力。
- 核心价值：文献调研的本质是为大模型构建“领域专家级”的上下文，而非仅仅为了找 Idea。

确定与复现 Baseline

必要性：绝大多数科研基于 Baseline 展开，复现 Baseline 是为后续实验建立可靠的“锚点”。
痛点与解决方案：
- 环境陷阱：AI 在复现时容易陷入 pip 报错、进程卡死、网络波动等细节泥潭，且会因 sleep 调用浪费大量时间。
- 上下文污染：在主线程运行复现任务会将报错日志灌入上下文，污染后续对话。
- 最佳实践：
  1. 使用 tmux 防止 SSH 断连导致进程丢失。
  2. 将复现任务交给 Sub-agent 或 Exec 执行，主线程只收结果。
  3. 最稳妥方案：由人类（Human in the loop）预先搭建好环境、下载好数据，或将干净的路径直接提供给模型，避免无休止的上下文污染。

提出 Idea

发散阶段：由 Gemini 负责。因其搜索能力强且敢于“脑洞大开”，在仅接收文献调研结果和 Baseline 信息的干净上下文中，生成约 10 个 Idea。
评审阶段：由 Codex 负责独立 Review。
- 隔离性：每个 Idea 单独评估，Codex 仅看到对应的 Baseline 和当前 Idea 描述，避免偏见。
- 维度：Novelty、技术可行性、兼容性、实现复杂度、预期提升。
- 输出：生成包含评分和理由的 Idea Card，判定为 Go、Revise 或 Kill。
决策阶段：由 Claude 根据 Ranking 结果拍板。
迭代循环：从 Idea 到结果分析是循环过程。如果 Idea 不 Work 或结果有苗头但方法有问题，需跳回重新思考。真正的价值在于探索过程和结果分析，而非 Idea 本身。

关键要点

拒绝开箱即用：通用的 Agent System 对高质量科研帮助有限，必须定制专属 Workflow。
上下文即生命：被污染的上下文会导致模型能力崩溃式下降，必须严格隔离和管理每个 Session 的信息输入。
模型分工明确：
- Gemini：强搜索、强发散，适合文献调研和 Idea 生成。
- Codex：强逻辑判断，适合独立、隔离的 Idea 评审。
- Claude/GPT：强智力与整合，适合最终决策、代码实现及论文写作。
复现 Baseline 需人工介入：AI 自动复现环境极易出错且污染上下文，建议由人类预先完成环境搭建和数据准备，或采用 Human-in-the-loop 模式。
科研真实性高于形式：AI 生成的精美论文若缺乏真实实验支撑和可复现性，即为学术垃圾。科研的核心是验证 Idea 和探索未知，而非生成文本。
文献调研构建专家上下文：高质量的调研能为模型提供领域专家的视角，显著提升 Idea 的质量，避免“通用上下文”导致的浅层思考。

意义与影响

这篇文章打破了“AI 自动化科研”的泡沫，指出了当前 AI 辅助科研工具在实际落地中的巨大鸿沟。它强调科研的本质是严谨的逻辑验证和实验复现，而非文本生成。

对于研究者而言，其意义在于提供了一套经过实战检验的、基于“上下文工程”的 AI 协作范式。它提醒研究者，AI 不是替代者，而是需要被严格管控和引导的高级助手。只有当 AI 做出的科研保证真实性、可复现性和逻辑严密性时，AI 才能真正推动学科向前发展，而非制造更多精致的学术噪音。这一观点对于未来 AI 在科学发现领域的角色定位具有重要的纠偏意义。

查看原文 →linux.do