博士生分享AI协作实战:从日常顾问到科研全流程提效
原标题:【开源推广】作为一名在读博士生,我在日常是如何与 AI 协作的?——ai-collab-playbook
速览
本文是一位AI方向博士生分享的AI协作实战指南,主张将AI视为同事而非工具。内容涵盖日常使用技巧,如利用划词工具和IM软件远程调用Agent,以及科研场景下的深度应用,包括文献调研、网络分析、多模型精读配合及GPT-Image-2辅助绘图。作者强调通过元提示词、苏格拉底追问和多模型协作等方法,降低使用摩擦力,实现工作流的自动化与知识沉淀。
AI 深度解读
背景
在人工智能技术迅速迭代的当下,人机协作模式正从“人操作工具”向“人与 AI 同事”转变。作者作为一名人工智能方向的在读博士生,自 ChatGPT 及 GPT-3.5 时代起便重度使用 AI 工具。经过几年的实践,作者发现传统计算机操作往往要求用户将意图拆解为琐碎步骤,本质上是人在给机器当“翻译”。
基于此,作者提出了“当同事,不当工具”的协作理念,并整理出一套名为 ai-collab-playbook 的开源工作流。该工作流旨在通过降低使用摩擦力、固化经验为 Skill(技能/智能体术语)、以及多模型协作,将 AI 深度融入日常咨询、科研文献处理、代码开发及知识管理等环节,实现人机协作的复利效应。
核心内容
1. 日常协作:降低摩擦与可视化智能
- 划词工具栏的应用:作者主要使用豆包的划词工具栏功能,支持全局唤醒和自定义动作(如“概念解释器”)。相比夸克、飞书等通用工具,或 Pot Desktop、Cherry Studio 等支持自定义 API 的进阶方案,豆包方案在易用性上达到了平衡。核心策略是降低使用 AI 的摩擦力,让入口贴近工作流,从而挖掘更大价值。
- IM 软件作为 Agent 入口:通过 cc-connect、happy 等应用,利用 IM 软件远程调用本地 Coding Agent(如 Claude Code, Codex)或成品 Agent(如 OpenClaw, Hermes)。IM 被视为最低摩擦的派活入口,Agent 可执行下载、转写、分析、跑代码等任务。
- 可持续培养性:Agent 能记忆用户偏好、项目结构并沉淀 Skill,逐渐演变为“熟悉我的同事”。作者将其用于咨询推送、生活提醒(如督促写日记、整理知识 Wiki)。
- 视觉智能的崛起(GPT-Image-2):
- 价值转变:从单纯的图像生成(Image Generation)迈向视觉智能(Visual Intelligence)。模型需理解上下文、规划版式、保持多图一致性,并将复杂逻辑转化为可视化对象。
- 信任危机:随着 GPT-Image-2 等模型生成图片达到“以假乱真”水平,进入“有图未必有真相”时代。用户需从肉眼判断转向对细节一致性、逻辑关系、来源链路的严格交叉验证,而非仅凭“看起来像真的”进行判断。
2. 科研全流程:AI 辅助的四个阶段
作者将科研文献阅读分为调研、筛选、精读、整合四个阶段,并强调通过 Agent 的 Skill 打通环节。
- 阶段一:课题调研
- 使用 OpenAI Deep Research 及 GPT-5.5-Pro 进行可行性分析。
- 要求 AI 提供最新文献及领域开山之作,并构建个人 Wiki。
- 阶段二:文献网络分析
- 利用 Paper Connect 等工具可视化引用关系,判断研究热度与技术脉络。
- 将引用分析固化为 Skill,自动分析引与被引关系,下载相关论文。引用网络庞大意味着方向“卷”,反之可能为蓝海。
- 阶段三:确定精读与逐篇攻克
- 先与 Agent 讨论研究进度,确定阅读顺序,剔除无关论文。
- 双模型配合策略:
- Gemini:负责宏观视角,按“动机→数学建模→实验→结论→评述”五维度分析,便于生成周报。
- GPT:负责逐句精读。结合 HJFY 等翻译网站及自定义 GPT Skill,对关键句子进行细粒度解释。
- 阶段四:知识整合
- 将精读后的完整上下文交给 GPT-Image-2 生成信息图(每篇论文一张),通过个人理解与图表交叉验证后存档。
3. 科研绘图与写作策略
- 科研绘图分类:
- 插图(Illustrations):阐述核心思想的示意图。
- Teaser 图:高度浓缩、引人注目的视觉摘要,常用于顶级期刊封面。
- Poster(海报):高信息密度、逻辑清晰的会议展示图。
- 绘图策略:
- 元提示词思维:让 LLM 理解论文内容后,生成用于绘图的详细 Prompt,涵盖内容布局、配色、字体及大风格(如 Nature/Science 风格)。
- 参考图技巧:提供优秀插图让 AI 分析风格,再基于论文内容生成新图像。
- 角色定位:AI 主要作为创意激发和草图助手。生成结果(尤其是数据和逻辑部分)必须经过严格人工审核。最终可由 Agent 将草图转化为 Slides 或 HTML,由人工微调。
- 科研写作:
- AI 审稿:使用 paperreview 和 cspaper 等专业审稿 Agent 多轮迭代,提前解决潜在问题,提高被 AI 审稿人(若存在)接受的概率。
- 理解优先:确保 AI 对内容的理解正确,避免偏差累积。
- 领域化 Skill 沉淀:不同领域论文风格差异大(严谨推导 vs 叙事铺垫等)。应通过喂入本领域高质量参考论文,沉淀专属写作 Skill,明确结构、风格及习惯要求。
4. 代码开发(Code Agent)工作流
- 工具演变:从 Cursor 进化至 Claude Code、Codex、Gemini CLI 及 OpenCode。通过 Claude-Code-Bridge (CCB) 串联使用,构思清晰后交由 GPT 模型在 xhigh 模式下严格执行。
- 复杂需求处理流程:
- 需求澄清:将模糊想法同时发给多个 AI,让它们整理需求并反向提问(原则:宁可多探索 10 步,也不问用户可自寻的问题)。
- 迭代确认:用户回答 AI 提问,AI 输出可视化 ASCII 原型图,不断迭代直至方案无重大问题。
- 执行:最终交由 GPT 模型完成代码生成。若模型偷懒,可使用类似 pua 的 Skill 施加压迫感,驱动其穷尽方案。
- 模型特点对比:
- GPT / Codex:严谨,GPT-5.5 在语言表达上较 GPT-5.4 有改进。
- Claude (Opus 4.6):表达能力强,速度快,工具调用优秀,但价格昂贵;Opus 4.7 出现失误。
- Gemini:前端及发散思维不错,但整体略落后。
- Grok:搜索能力强,审查宽松,推荐搭配 grok-search MCP。
5. 系统维护:定期复盘与做减法
- Skill 收敛原则:OpenAI 和 Anthropic 均建议工具收敛。过多的 Skill 会导致模型选择犹豫、变慢或上下文被拖垮。
- 定期复盘:检查 Skill 是否带来增量价值。若多个 Skill 功能重叠或长期闲置,应关闭或删除。
- 质量验证:公开 Skill 质量参差不齐,需自行测试“使用前后”的差异。
- 协作本质:与 AI 协作不仅是做加法(安装 Skill),更是做减法(去除噪声)。
关键要点
- 协作范式转变:从“人翻译意图给机器”转变为“人机协作”,AI 应被视为具备记忆和沉淀能力的“同事”。
- 降低摩擦力:通过划词工具栏、IM 远程调用等方式,让 AI 入口尽可能贴近工作流,提升使用频率和价值挖掘。
- 元提示词与 Skill 化:让 AI 生成 Prompt,并将常用工作流固化为 Skill(Agent 术语),实现经验沉淀和效率
查看原文 →linux.do
