← 返回信息流
Agent SkillLINUX DO · AI·2 小时前

博士生分享AI协作指南:从日常办公到科研全流程

原标题:【开源推广】作为一名在读博士生,我在日常是如何与 AI 协作的?——ai-collab-playbook(26.6.8版)

速览

本文是一位AI方向博士生分享的ai-collab-playbook,主张将AI视为同事而非单纯工具,强调降低使用摩擦力。内容涵盖日常办公中按任务重量选择AI入口、通过IM远程调用Agent,以及科研中利用多模型协作进行文献调研、精读和知识整合的完整工作流。

AI 深度解读

背景

作者是一名人工智能方向的在读博士生,自 ChatGPT 及 GPT-3.5 时代起便重度使用 AI 工具。经过数年的实践,AI 已深度渗透至其科研与日常工作的各个环节。作者开源了其协作方法论 ai-collab-playbook(26.6.8版),旨在分享如何从“将机器视为翻译工具”转向“将 AI 视为同事”的协作模式。文章核心观点认为,人机协作时代的关键在于降低使用摩擦力,让 AI 入口贴近任务,Agent 流程可复盘,且人类始终掌握问题表述与验收标准。

核心内容

日常使用:AI 作为随身顾问

作者主张根据任务重量选择 AI 入口,以最小化摩擦:

  • 轻量任务:直接使用网页端 ChatGPT 的 Agent 模式或应用侧工具(如 豆包 的划词工具栏、浏览器插件)。这些方案入口短、成本低,适合临时总结、改写或无上下文查询,无需搭建复杂的本地 Agent 工作流。
  • 重度/项目级任务:使用本地 Agent。
  • IM 远程调用:通过 IM 软件(如 cc-connecthappy 或成品 OpenClawHermes)远程调用本地 Coding Agent(如 Claude Code、Codex)。IM 被视为最低摩擦的派活入口,远端机器作为工作台执行下载、转写、代码运行等任务。
  • 可持续培养:通过让 Agent 记忆个人偏好、项目结构并沉淀 skill/workflow,使其逐渐演变为“熟悉你的同事”,用于咨询、提醒及知识整理。

科研工作流:调研 → 筛选 → 精读 → 整合

作者构建了一套稳定的科研辅助流程,核心目标是连接文献网络、论文细节与个人理解:

  1. 课题调研:利用 OpenAI 的 Deep Research 及 GPT-Pro 进行可行性分析,要求 AI 提供最新文献及领域开山之作,并据此构建 wiki
  2. 文献网络分析:借助 Paper Connect 等工具可视化引用关系,判断研究热度。若引用网络庞大则方向较“卷”,反之可能为蓝海。随后与 Agent 沟通逻辑关系,自动下载目标论文。
  3. 精读环节
    • 宏观视角:使用 Gemini 从动机、数学建模、实验、结论、评述五个角度分析论文,生成 HTML 格式的精读笔记(便于周报截图)。若 Gemini 表现不佳,可参考 arXiv 的 blog 模式进行粗读。
    • 细节补充:使用 GPT 在 Gemini 生成的 HTML 基础上修改补充,或直接生成 HTML 并对照原文分屏阅读。作者开源了 paper2html Skill,支持将 PDF/arXiv/OpenReview/LaTeX 转为中文 HTML 精读页。
  4. 知识整合:由 Codex 调用 GPT-Image-2 生成信息图(每篇论文一张),结合个人理解进行交叉验证后存档。

科研绘图与视觉智能

  • 绘图分类:区分插图(Illustrations)、Teaser 图(视觉摘要)和 Poster(学术海报)。
  • Prompt 工程:采用“元提示词思维”,让 LLM 理解论文内容后,自动生成用于图像生成的详细 Prompt,而非人工描述。技巧包括指定风格(如 Nature/Science)、使用参考图分析风格。
  • 角色定位:AI 目前主要作为创意激发和草图助手。生成结果需经严格人工审核,尤其是数据和逻辑部分。
  • 视觉智能趋势:以 GPT-Image-2 为代表的模型正从单纯的图像生成迈向“视觉智能”,具备理解上下文、规划版式、保持多图一致性等能力。这要求用户提高评价标准,从肉眼判断转向检查细节一致性、逻辑关系及来源链路,应对“有图未必有真相”的时代挑战。

科研写作

  • AI 审稿:在起稿阶段使用润色 Skill,完成后使用专业审稿 Agent(如 paperreviewcspaper 或自定义 Skill)进行多轮迭代,提前解决潜在问题。此举不仅提升质量,也可能因符合 AI 审稿人的偏好而获得更高分数。
  • 理解验证:强调必须确保 AI 对内容的理解正确,否则会导致后续写作严重偏离。
  • 领域 Skill 沉淀:不同领域论文风格各异(严谨推导、叙事铺垫等)。建议基于通用科研写作 Skill,喂入本领域高质量参考论文,沉淀出符合个人偏好和领域习惯的专属写作 Skill。

Code Agent 使用指南

  • 工具演变:从 Cursor 进化至 Claude Code、Codex、Gemini CLI 及 OpenCode,通过 Claude-Code-Bridge (CCB) 协同工作。构思清晰后,交由 GPT 模型在 xhigh 模式下严格执行。
  • 减少摩擦与上下文税:频繁切换 GUI、窗口和命令会打断心流。作者主张保持连续的操作回路,利用 CLI、快捷键(如 fzfyazi)和原生命令(如 open -a Preview)减少注意力切换。
  • 工具选择至关重要:Agent 的能力取决于工具选择的准确性。例如:
    • 代码搜索优先用 rg
    • 结构化数据处理用 jq
    • Python 依赖管理用 uv run --with
    • 音视频处理用 ffmpeg,图片处理用 magick
    • PDF/LaTeX 处理用 popplerxelatex
  • Review Agent:需审查 Agent 是否选对工具,避免使用低效方案(如在 Apple Silicon 上本可利用 Metal/MLX 加速 Whisper 转录,却退回 CPU 运行)。

关键要点

  • 协作范式转变:从“人给机器当翻译”转变为“人机协作”,AI 应被视为具备记忆和技能的“同事”,而非单纯的工具。
  • 入口分级策略:轻量任务使用网页端或应用侧工具(低摩擦),复杂项目使用本地 Agent(高能力、可沉淀)。
  • 科研四步法:调研(Deep Research/GPT-Pro)→ 网络分析(可视化引用)→ 精读(Gemini 宏观+GPT 细节+HTML输出)→ 整合(GPT-Image-2 生成信息图)。
  • 元提示词思维:让 AI 生成操纵 AI 的 Prompt,特别是在科研绘图等复杂描述场景中,效果优于人工描述。
  • 视觉智能崛起:图像生成模型具备理解上下文和逻辑规划能力,用户需具备批判性思维,交叉验证生成内容的逻辑与事实。
  • 写作 Skill 沉淀:通过喂入领域内高质量论文,沉淀个性化的写作 Skill,以适配不同领域的写作规范和个人风格。
  • 心流保护机制:在 Coding 中,通过 CLI 工具链和正确的工具选择(如 rg, jq, uv)减少上下文切换,降低“上下文税”,保持人与 Agent 的操作连续性。
  • 开源共享:作者将上述流程固化为 Skill(如 paper2html, paperreview),并在 GitHub 仓库 cnfjlhj/ai-collab-playbook 中开源,强调经验复利。

意义与影响

这篇文章不仅是一份个人工作流分享,更是对当前 AI 应用深度化的一种方法论总结。它揭示了 AI 从“通用聊天机器人”向“垂直领域专家助手”演进的必然趋势。

  1. 重新定义人机协作边界:文章强调了“降低摩擦”和“上下文连续性”的重要性,指出高效 AI 使用的核心不在于模型参数的堆砌,而在于工作流设计的合理性。这对提升知识工作者的生产效率具有直接指导意义。
  2. 科研范式的革新:提出的“调研-筛选-精读-整合”闭环,特别是利用多模型协作(Gemini 宏观/GPT 微观)和视觉化(GPT-Image-2)手段,为
查看原文 →linux.do