Agent SkillLINUX DO · AI·2026/4/26

博士生分享AI协作实战：从日常顾问到科研全流程提效

原标题：【开源推广】作为一名在读博士生，我在日常是如何与 AI 协作的？——ai-collab-playbook

速览

本文是一位AI方向博士生分享的AI协作实战指南，主张将AI视为同事而非工具。内容涵盖日常使用技巧，如利用划词工具和IM软件远程调用Agent，以及科研场景下的深度应用，包括文献调研、网络分析、多模型精读配合及GPT-Image-2辅助绘图。作者强调通过元提示词、苏格拉底追问和多模型协作等方法，降低使用摩擦力，实现工作流的自动化与知识沉淀。

AI 深度解读

背景

在人工智能技术迅速迭代的当下，人机协作模式正从“人操作工具”向“人与 AI 同事”转变。作者作为一名人工智能方向的在读博士生，自 ChatGPT 及 GPT-3.5 时代起便重度使用 AI 工具。经过几年的实践，作者发现传统计算机操作往往要求用户将意图拆解为琐碎步骤，本质上是人在给机器当“翻译”。

基于此，作者提出了“当同事，不当工具”的协作理念，并整理出一套名为 ai-collab-playbook 的开源工作流。该工作流旨在通过降低使用摩擦力、固化经验为 Skill（技能/智能体术语）、以及多模型协作，将 AI 深度融入日常咨询、科研文献处理、代码开发及知识管理等环节，实现人机协作的复利效应。

核心内容

1. 日常协作：降低摩擦与可视化智能

划词工具栏的应用：作者主要使用豆包的划词工具栏功能，支持全局唤醒和自定义动作（如“概念解释器”）。相比夸克、飞书等通用工具，或 Pot Desktop、Cherry Studio 等支持自定义 API 的进阶方案，豆包方案在易用性上达到了平衡。核心策略是降低使用 AI 的摩擦力，让入口贴近工作流，从而挖掘更大价值。
IM 软件作为 Agent 入口：通过 cc-connect、happy 等应用，利用 IM 软件远程调用本地 Coding Agent（如 Claude Code, Codex）或成品 Agent（如 OpenClaw, Hermes）。IM 被视为最低摩擦的派活入口，Agent 可执行下载、转写、分析、跑代码等任务。
可持续培养性：Agent 能记忆用户偏好、项目结构并沉淀 Skill，逐渐演变为“熟悉我的同事”。作者将其用于咨询推送、生活提醒（如督促写日记、整理知识 Wiki）。
视觉智能的崛起（GPT-Image-2）：
- 价值转变：从单纯的图像生成（Image Generation）迈向视觉智能（Visual Intelligence）。模型需理解上下文、规划版式、保持多图一致性，并将复杂逻辑转化为可视化对象。
- 信任危机：随着 GPT-Image-2 等模型生成图片达到“以假乱真”水平，进入“有图未必有真相”时代。用户需从肉眼判断转向对细节一致性、逻辑关系、来源链路的严格交叉验证，而非仅凭“看起来像真的”进行判断。

2. 科研全流程：AI 辅助的四个阶段

作者将科研文献阅读分为调研、筛选、精读、整合四个阶段，并强调通过 Agent 的 Skill 打通环节。

阶段一：课题调研
- 使用 OpenAI Deep Research 及 GPT-5.5-Pro 进行可行性分析。
- 要求 AI 提供最新文献及领域开山之作，并构建个人 Wiki。
阶段二：文献网络分析
- 利用 Paper Connect 等工具可视化引用关系，判断研究热度与技术脉络。
- 将引用分析固化为 Skill，自动分析引与被引关系，下载相关论文。引用网络庞大意味着方向“卷”，反之可能为蓝海。
阶段三：确定精读与逐篇攻克
- 先与 Agent 讨论研究进度，确定阅读顺序，剔除无关论文。
- 双模型配合策略：
  - Gemini：负责宏观视角，按“动机→数学建模→实验→结论→评述”五维度分析，便于生成周报。
  - GPT：负责逐句精读。结合 HJFY 等翻译网站及自定义 GPT Skill，对关键句子进行细粒度解释。
阶段四：知识整合
- 将精读后的完整上下文交给 GPT-Image-2 生成信息图（每篇论文一张），通过个人理解与图表交叉验证后存档。

3. 科研绘图与写作策略

科研绘图分类：
- 插图（Illustrations）：阐述核心思想的示意图。
- Teaser 图：高度浓缩、引人注目的视觉摘要，常用于顶级期刊封面。
- Poster（海报）：高信息密度、逻辑清晰的会议展示图。
绘图策略：
- 元提示词思维：让 LLM 理解论文内容后，生成用于绘图的详细 Prompt，涵盖内容布局、配色、字体及大风格（如 Nature/Science 风格）。
- 参考图技巧：提供优秀插图让 AI 分析风格，再基于论文内容生成新图像。
- 角色定位：AI 主要作为创意激发和草图助手。生成结果（尤其是数据和逻辑部分）必须经过严格人工审核。最终可由 Agent 将草图转化为 Slides 或 HTML，由人工微调。
科研写作：
- AI 审稿：使用 paperreview 和 cspaper 等专业审稿 Agent 多轮迭代，提前解决潜在问题，提高被 AI 审稿人（若存在）接受的概率。
- 理解优先：确保 AI 对内容的理解正确，避免偏差累积。
- 领域化 Skill 沉淀：不同领域论文风格差异大（严谨推导 vs 叙事铺垫等）。应通过喂入本领域高质量参考论文，沉淀专属写作 Skill，明确结构、风格及习惯要求。

4. 代码开发（Code Agent）工作流

工具演变：从 Cursor 进化至 Claude Code、Codex、Gemini CLI 及 OpenCode。通过 Claude-Code-Bridge (CCB) 串联使用，构思清晰后交由 GPT 模型在 xhigh 模式下严格执行。
复杂需求处理流程：
1. 需求澄清：将模糊想法同时发给多个 AI，让它们整理需求并反向提问（原则：宁可多探索 10 步，也不问用户可自寻的问题）。
2. 迭代确认：用户回答 AI 提问，AI 输出可视化 ASCII 原型图，不断迭代直至方案无重大问题。
3. 执行：最终交由 GPT 模型完成代码生成。若模型偷懒，可使用类似 pua 的 Skill 施加压迫感，驱动其穷尽方案。
模型特点对比：
- GPT / Codex：严谨，GPT-5.5 在语言表达上较 GPT-5.4 有改进。
- Claude (Opus 4.6)：表达能力强，速度快，工具调用优秀，但价格昂贵；Opus 4.7 出现失误。
- Gemini：前端及发散思维不错，但整体略落后。
- Grok：搜索能力强，审查宽松，推荐搭配 grok-search MCP。

5. 系统维护：定期复盘与做减法

Skill 收敛原则：OpenAI 和 Anthropic 均建议工具收敛。过多的 Skill 会导致模型选择犹豫、变慢或上下文被拖垮。
定期复盘：检查 Skill 是否带来增量价值。若多个 Skill 功能重叠或长期闲置，应关闭或删除。
质量验证：公开 Skill 质量参差不齐，需自行测试“使用前后”的差异。
协作本质：与 AI 协作不仅是做加法（安装 Skill），更是做减法（去除噪声）。

关键要点

协作范式转变：从“人翻译意图给机器”转变为“人机协作”，AI 应被视为具备记忆和沉淀能力的“同事”。
降低摩擦力：通过划词工具栏、IM 远程调用等方式，让 AI 入口尽可能贴近工作流，提升使用频率和价值挖掘。
元提示词与 Skill 化：让 AI 生成 Prompt，并将常用工作流固化为 Skill（Agent 术语），实现经验沉淀和效率

查看原文 →linux.do