博士生分享AI协作指南:从日常办公到科研全流程
原标题:【开源推广】作为一名在读博士生,我在日常是如何与 AI 协作的?——ai-collab-playbook(26.6.8版)
速览
本文是一位AI方向博士生分享的ai-collab-playbook,主张将AI视为同事而非单纯工具,强调降低使用摩擦力。内容涵盖日常办公中按任务重量选择AI入口、通过IM远程调用Agent,以及科研中利用多模型协作进行文献调研、精读和知识整合的完整工作流。
AI 深度解读
背景
作者是一名人工智能方向的在读博士生,自 ChatGPT 及 GPT-3.5 时代起便重度使用 AI 工具。经过数年的实践,AI 已深度渗透至其科研与日常工作的各个环节。作者开源了其协作方法论 ai-collab-playbook(26.6.8版),旨在分享如何从“将机器视为翻译工具”转向“将 AI 视为同事”的协作模式。文章核心观点认为,人机协作时代的关键在于降低使用摩擦力,让 AI 入口贴近任务,Agent 流程可复盘,且人类始终掌握问题表述与验收标准。
核心内容
日常使用:AI 作为随身顾问
作者主张根据任务重量选择 AI 入口,以最小化摩擦:
- 轻量任务:直接使用网页端 ChatGPT 的 Agent 模式或应用侧工具(如
豆包的划词工具栏、浏览器插件)。这些方案入口短、成本低,适合临时总结、改写或无上下文查询,无需搭建复杂的本地 Agent 工作流。 - 重度/项目级任务:使用本地 Agent。
- IM 远程调用:通过 IM 软件(如
cc-connect、happy或成品OpenClaw、Hermes)远程调用本地 Coding Agent(如 Claude Code、Codex)。IM 被视为最低摩擦的派活入口,远端机器作为工作台执行下载、转写、代码运行等任务。 - 可持续培养:通过让 Agent 记忆个人偏好、项目结构并沉淀
skill/workflow,使其逐渐演变为“熟悉你的同事”,用于咨询、提醒及知识整理。
科研工作流:调研 → 筛选 → 精读 → 整合
作者构建了一套稳定的科研辅助流程,核心目标是连接文献网络、论文细节与个人理解:
- 课题调研:利用 OpenAI 的 Deep Research 及 GPT-Pro 进行可行性分析,要求 AI 提供最新文献及领域开山之作,并据此构建
wiki。 - 文献网络分析:借助 Paper Connect 等工具可视化引用关系,判断研究热度。若引用网络庞大则方向较“卷”,反之可能为蓝海。随后与 Agent 沟通逻辑关系,自动下载目标论文。
- 精读环节:
- 宏观视角:使用 Gemini 从动机、数学建模、实验、结论、评述五个角度分析论文,生成 HTML 格式的精读笔记(便于周报截图)。若 Gemini 表现不佳,可参考 arXiv 的 blog 模式进行粗读。
- 细节补充:使用 GPT 在 Gemini 生成的 HTML 基础上修改补充,或直接生成 HTML 并对照原文分屏阅读。作者开源了
paper2htmlSkill,支持将 PDF/arXiv/OpenReview/LaTeX 转为中文 HTML 精读页。
- 知识整合:由 Codex 调用 GPT-Image-2 生成信息图(每篇论文一张),结合个人理解进行交叉验证后存档。
科研绘图与视觉智能
- 绘图分类:区分插图(Illustrations)、Teaser 图(视觉摘要)和 Poster(学术海报)。
- Prompt 工程:采用“元提示词思维”,让 LLM 理解论文内容后,自动生成用于图像生成的详细 Prompt,而非人工描述。技巧包括指定风格(如 Nature/Science)、使用参考图分析风格。
- 角色定位:AI 目前主要作为创意激发和草图助手。生成结果需经严格人工审核,尤其是数据和逻辑部分。
- 视觉智能趋势:以 GPT-Image-2 为代表的模型正从单纯的图像生成迈向“视觉智能”,具备理解上下文、规划版式、保持多图一致性等能力。这要求用户提高评价标准,从肉眼判断转向检查细节一致性、逻辑关系及来源链路,应对“有图未必有真相”的时代挑战。
科研写作
- AI 审稿:在起稿阶段使用润色 Skill,完成后使用专业审稿 Agent(如
paperreview、cspaper或自定义 Skill)进行多轮迭代,提前解决潜在问题。此举不仅提升质量,也可能因符合 AI 审稿人的偏好而获得更高分数。 - 理解验证:强调必须确保 AI 对内容的理解正确,否则会导致后续写作严重偏离。
- 领域 Skill 沉淀:不同领域论文风格各异(严谨推导、叙事铺垫等)。建议基于通用科研写作 Skill,喂入本领域高质量参考论文,沉淀出符合个人偏好和领域习惯的专属写作 Skill。
Code Agent 使用指南
- 工具演变:从 Cursor 进化至 Claude Code、Codex、Gemini CLI 及 OpenCode,通过 Claude-Code-Bridge (CCB) 协同工作。构思清晰后,交由 GPT 模型在
xhigh模式下严格执行。 - 减少摩擦与上下文税:频繁切换 GUI、窗口和命令会打断心流。作者主张保持连续的操作回路,利用 CLI、快捷键(如
fzf、yazi)和原生命令(如open -a Preview)减少注意力切换。 - 工具选择至关重要:Agent 的能力取决于工具选择的准确性。例如:
- 代码搜索优先用
rg。 - 结构化数据处理用
jq。 - Python 依赖管理用
uv run --with。 - 音视频处理用
ffmpeg,图片处理用magick。 - PDF/LaTeX 处理用
poppler、xelatex。
- 代码搜索优先用
- Review Agent:需审查 Agent 是否选对工具,避免使用低效方案(如在 Apple Silicon 上本可利用 Metal/MLX 加速 Whisper 转录,却退回 CPU 运行)。
关键要点
- 协作范式转变:从“人给机器当翻译”转变为“人机协作”,AI 应被视为具备记忆和技能的“同事”,而非单纯的工具。
- 入口分级策略:轻量任务使用网页端或应用侧工具(低摩擦),复杂项目使用本地 Agent(高能力、可沉淀)。
- 科研四步法:调研(Deep Research/GPT-Pro)→ 网络分析(可视化引用)→ 精读(Gemini 宏观+GPT 细节+HTML输出)→ 整合(GPT-Image-2 生成信息图)。
- 元提示词思维:让 AI 生成操纵 AI 的 Prompt,特别是在科研绘图等复杂描述场景中,效果优于人工描述。
- 视觉智能崛起:图像生成模型具备理解上下文和逻辑规划能力,用户需具备批判性思维,交叉验证生成内容的逻辑与事实。
- 写作 Skill 沉淀:通过喂入领域内高质量论文,沉淀个性化的写作 Skill,以适配不同领域的写作规范和个人风格。
- 心流保护机制:在 Coding 中,通过 CLI 工具链和正确的工具选择(如
rg,jq,uv)减少上下文切换,降低“上下文税”,保持人与 Agent 的操作连续性。 - 开源共享:作者将上述流程固化为
Skill(如paper2html,paperreview),并在 GitHub 仓库cnfjlhj/ai-collab-playbook中开源,强调经验复利。
意义与影响
这篇文章不仅是一份个人工作流分享,更是对当前 AI 应用深度化的一种方法论总结。它揭示了 AI 从“通用聊天机器人”向“垂直领域专家助手”演进的必然趋势。
- 重新定义人机协作边界:文章强调了“降低摩擦”和“上下文连续性”的重要性,指出高效 AI 使用的核心不在于模型参数的堆砌,而在于工作流设计的合理性。这对提升知识工作者的生产效率具有直接指导意义。
- 科研范式的革新:提出的“调研-筛选-精读-整合”闭环,特别是利用多模型协作(Gemini 宏观/GPT 微观)和视觉化(GPT-Image-2)手段,为
查看原文 →linux.do
