Agent SkillLINUX DO · AI·2 小时前

博士生分享AI协作指南：从日常办公到科研全流程

原标题：【开源推广】作为一名在读博士生，我在日常是如何与 AI 协作的？——ai-collab-playbook（26.6.8版）

速览

本文是一位AI方向博士生分享的ai-collab-playbook，主张将AI视为同事而非单纯工具，强调降低使用摩擦力。内容涵盖日常办公中按任务重量选择AI入口、通过IM远程调用Agent，以及科研中利用多模型协作进行文献调研、精读和知识整合的完整工作流。

AI 深度解读

背景

作者是一名人工智能方向的在读博士生，自 ChatGPT 及 GPT-3.5 时代起便重度使用 AI 工具。经过数年的实践，AI 已深度渗透至其科研与日常工作的各个环节。作者开源了其协作方法论 ai-collab-playbook（26.6.8版），旨在分享如何从“将机器视为翻译工具”转向“将 AI 视为同事”的协作模式。文章核心观点认为，人机协作时代的关键在于降低使用摩擦力，让 AI 入口贴近任务，Agent 流程可复盘，且人类始终掌握问题表述与验收标准。

核心内容

日常使用：AI 作为随身顾问

作者主张根据任务重量选择 AI 入口，以最小化摩擦：

轻量任务：直接使用网页端 ChatGPT 的 Agent 模式或应用侧工具（如 豆包 的划词工具栏、浏览器插件）。这些方案入口短、成本低，适合临时总结、改写或无上下文查询，无需搭建复杂的本地 Agent 工作流。
重度/项目级任务：使用本地 Agent。
IM 远程调用：通过 IM 软件（如 cc-connect、happy 或成品 OpenClaw、Hermes）远程调用本地 Coding Agent（如 Claude Code、Codex）。IM 被视为最低摩擦的派活入口，远端机器作为工作台执行下载、转写、代码运行等任务。
可持续培养：通过让 Agent 记忆个人偏好、项目结构并沉淀 skill/workflow，使其逐渐演变为“熟悉你的同事”，用于咨询、提醒及知识整理。

科研工作流：调研 → 筛选 → 精读 → 整合

作者构建了一套稳定的科研辅助流程，核心目标是连接文献网络、论文细节与个人理解：

课题调研：利用 OpenAI 的 Deep Research 及 GPT-Pro 进行可行性分析，要求 AI 提供最新文献及领域开山之作，并据此构建 wiki。
文献网络分析：借助 Paper Connect 等工具可视化引用关系，判断研究热度。若引用网络庞大则方向较“卷”，反之可能为蓝海。随后与 Agent 沟通逻辑关系，自动下载目标论文。
精读环节：
- 宏观视角：使用 Gemini 从动机、数学建模、实验、结论、评述五个角度分析论文，生成 HTML 格式的精读笔记（便于周报截图）。若 Gemini 表现不佳，可参考 arXiv 的 blog 模式进行粗读。
- 细节补充：使用 GPT 在 Gemini 生成的 HTML 基础上修改补充，或直接生成 HTML 并对照原文分屏阅读。作者开源了 paper2html Skill，支持将 PDF/arXiv/OpenReview/LaTeX 转为中文 HTML 精读页。
知识整合：由 Codex 调用 GPT-Image-2 生成信息图（每篇论文一张），结合个人理解进行交叉验证后存档。

科研绘图与视觉智能

绘图分类：区分插图（Illustrations）、Teaser 图（视觉摘要）和 Poster（学术海报）。
Prompt 工程：采用“元提示词思维”，让 LLM 理解论文内容后，自动生成用于图像生成的详细 Prompt，而非人工描述。技巧包括指定风格（如 Nature/Science）、使用参考图分析风格。
角色定位：AI 目前主要作为创意激发和草图助手。生成结果需经严格人工审核，尤其是数据和逻辑部分。
视觉智能趋势：以 GPT-Image-2 为代表的模型正从单纯的图像生成迈向“视觉智能”，具备理解上下文、规划版式、保持多图一致性等能力。这要求用户提高评价标准，从肉眼判断转向检查细节一致性、逻辑关系及来源链路，应对“有图未必有真相”的时代挑战。

科研写作

AI 审稿：在起稿阶段使用润色 Skill，完成后使用专业审稿 Agent（如 paperreview、cspaper 或自定义 Skill）进行多轮迭代，提前解决潜在问题。此举不仅提升质量，也可能因符合 AI 审稿人的偏好而获得更高分数。
理解验证：强调必须确保 AI 对内容的理解正确，否则会导致后续写作严重偏离。
领域 Skill 沉淀：不同领域论文风格各异（严谨推导、叙事铺垫等）。建议基于通用科研写作 Skill，喂入本领域高质量参考论文，沉淀出符合个人偏好和领域习惯的专属写作 Skill。

Code Agent 使用指南

工具演变：从 Cursor 进化至 Claude Code、Codex、Gemini CLI 及 OpenCode，通过 Claude-Code-Bridge (CCB) 协同工作。构思清晰后，交由 GPT 模型在 xhigh 模式下严格执行。
减少摩擦与上下文税：频繁切换 GUI、窗口和命令会打断心流。作者主张保持连续的操作回路，利用 CLI、快捷键（如 fzf、yazi）和原生命令（如 open -a Preview）减少注意力切换。
工具选择至关重要：Agent 的能力取决于工具选择的准确性。例如：
- 代码搜索优先用 rg。
- 结构化数据处理用 jq。
- Python 依赖管理用 uv run --with。
- 音视频处理用 ffmpeg，图片处理用 magick。
- PDF/LaTeX 处理用 poppler、xelatex。
Review Agent：需审查 Agent 是否选对工具，避免使用低效方案（如在 Apple Silicon 上本可利用 Metal/MLX 加速 Whisper 转录，却退回 CPU 运行）。

关键要点

协作范式转变：从“人给机器当翻译”转变为“人机协作”，AI 应被视为具备记忆和技能的“同事”，而非单纯的工具。
入口分级策略：轻量任务使用网页端或应用侧工具（低摩擦），复杂项目使用本地 Agent（高能力、可沉淀）。
科研四步法：调研（Deep Research/GPT-Pro）→ 网络分析（可视化引用）→ 精读（Gemini 宏观+GPT 细节+HTML输出）→ 整合（GPT-Image-2 生成信息图）。
元提示词思维：让 AI 生成操纵 AI 的 Prompt，特别是在科研绘图等复杂描述场景中，效果优于人工描述。
视觉智能崛起：图像生成模型具备理解上下文和逻辑规划能力，用户需具备批判性思维，交叉验证生成内容的逻辑与事实。
写作 Skill 沉淀：通过喂入领域内高质量论文，沉淀个性化的写作 Skill，以适配不同领域的写作规范和个人风格。
心流保护机制：在 Coding 中，通过 CLI 工具链和正确的工具选择（如 rg, jq, uv）减少上下文切换，降低“上下文税”，保持人与 Agent 的操作连续性。
开源共享：作者将上述流程固化为 Skill（如 paper2html, paperreview），并在 GitHub 仓库 cnfjlhj/ai-collab-playbook 中开源，强调经验复利。

意义与影响

这篇文章不仅是一份个人工作流分享，更是对当前 AI 应用深度化的一种方法论总结。它揭示了 AI 从“通用聊天机器人”向“垂直领域专家助手”演进的必然趋势。

重新定义人机协作边界：文章强调了“降低摩擦”和“上下文连续性”的重要性，指出高效 AI 使用的核心不在于模型参数的堆砌，而在于工作流设计的合理性。这对提升知识工作者的生产效率具有直接指导意义。
科研范式的革新：提出的“调研-筛选-精读-整合”闭环，特别是利用多模型协作（Gemini 宏观/GPT 微观）和视觉化（GPT-Image-2）手段，为

查看原文 →linux.do