← 返回信息流
Agent SkillLINUX DO · AI·2026/4/26

博士生分享AI协作实战:从日常顾问到科研全流程提效

原标题:【开源推广】作为一名在读博士生,我在日常是如何与 AI 协作的?——ai-collab-playbook

速览

本文是一位AI方向博士生分享的AI协作实战指南,主张将AI视为同事而非工具。内容涵盖日常使用技巧,如利用划词工具和IM软件远程调用Agent,以及科研场景下的深度应用,包括文献调研、网络分析、多模型精读配合及GPT-Image-2辅助绘图。作者强调通过元提示词、苏格拉底追问和多模型协作等方法,降低使用摩擦力,实现工作流的自动化与知识沉淀。

AI 深度解读

背景

在人工智能技术迅速迭代的当下,人机协作模式正从“人操作工具”向“人与 AI 同事”转变。作者作为一名人工智能方向的在读博士生,自 ChatGPT 及 GPT-3.5 时代起便重度使用 AI 工具。经过几年的实践,作者发现传统计算机操作往往要求用户将意图拆解为琐碎步骤,本质上是人在给机器当“翻译”。

基于此,作者提出了“当同事,不当工具”的协作理念,并整理出一套名为 ai-collab-playbook 的开源工作流。该工作流旨在通过降低使用摩擦力、固化经验为 Skill(技能/智能体术语)、以及多模型协作,将 AI 深度融入日常咨询、科研文献处理、代码开发及知识管理等环节,实现人机协作的复利效应。

核心内容

1. 日常协作:降低摩擦与可视化智能

  • 划词工具栏的应用:作者主要使用豆包的划词工具栏功能,支持全局唤醒和自定义动作(如“概念解释器”)。相比夸克、飞书等通用工具,或 Pot Desktop、Cherry Studio 等支持自定义 API 的进阶方案,豆包方案在易用性上达到了平衡。核心策略是降低使用 AI 的摩擦力,让入口贴近工作流,从而挖掘更大价值。
  • IM 软件作为 Agent 入口:通过 cc-connect、happy 等应用,利用 IM 软件远程调用本地 Coding Agent(如 Claude Code, Codex)或成品 Agent(如 OpenClaw, Hermes)。IM 被视为最低摩擦的派活入口,Agent 可执行下载、转写、分析、跑代码等任务。
  • 可持续培养性:Agent 能记忆用户偏好、项目结构并沉淀 Skill,逐渐演变为“熟悉我的同事”。作者将其用于咨询推送、生活提醒(如督促写日记、整理知识 Wiki)。
  • 视觉智能的崛起(GPT-Image-2)
    • 价值转变:从单纯的图像生成(Image Generation)迈向视觉智能(Visual Intelligence)。模型需理解上下文、规划版式、保持多图一致性,并将复杂逻辑转化为可视化对象。
    • 信任危机:随着 GPT-Image-2 等模型生成图片达到“以假乱真”水平,进入“有图未必有真相”时代。用户需从肉眼判断转向对细节一致性、逻辑关系、来源链路的严格交叉验证,而非仅凭“看起来像真的”进行判断。

2. 科研全流程:AI 辅助的四个阶段

作者将科研文献阅读分为调研、筛选、精读、整合四个阶段,并强调通过 Agent 的 Skill 打通环节。

  • 阶段一:课题调研
    • 使用 OpenAI Deep ResearchGPT-5.5-Pro 进行可行性分析。
    • 要求 AI 提供最新文献及领域开山之作,并构建个人 Wiki。
  • 阶段二:文献网络分析
    • 利用 Paper Connect 等工具可视化引用关系,判断研究热度与技术脉络。
    • 将引用分析固化为 Skill,自动分析引与被引关系,下载相关论文。引用网络庞大意味着方向“卷”,反之可能为蓝海。
  • 阶段三:确定精读与逐篇攻克
    • 先与 Agent 讨论研究进度,确定阅读顺序,剔除无关论文。
    • 双模型配合策略
      • Gemini:负责宏观视角,按“动机→数学建模→实验→结论→评述”五维度分析,便于生成周报。
      • GPT:负责逐句精读。结合 HJFY 等翻译网站及自定义 GPT Skill,对关键句子进行细粒度解释。
  • 阶段四:知识整合
    • 将精读后的完整上下文交给 GPT-Image-2 生成信息图(每篇论文一张),通过个人理解与图表交叉验证后存档。

3. 科研绘图与写作策略

  • 科研绘图分类
    • 插图(Illustrations):阐述核心思想的示意图。
    • Teaser 图:高度浓缩、引人注目的视觉摘要,常用于顶级期刊封面。
    • Poster(海报):高信息密度、逻辑清晰的会议展示图。
  • 绘图策略
    • 元提示词思维:让 LLM 理解论文内容后,生成用于绘图的详细 Prompt,涵盖内容布局、配色、字体及大风格(如 Nature/Science 风格)。
    • 参考图技巧:提供优秀插图让 AI 分析风格,再基于论文内容生成新图像。
    • 角色定位:AI 主要作为创意激发和草图助手。生成结果(尤其是数据和逻辑部分)必须经过严格人工审核。最终可由 Agent 将草图转化为 Slides 或 HTML,由人工微调。
  • 科研写作
    • AI 审稿:使用 paperreviewcspaper 等专业审稿 Agent 多轮迭代,提前解决潜在问题,提高被 AI 审稿人(若存在)接受的概率。
    • 理解优先:确保 AI 对内容的理解正确,避免偏差累积。
    • 领域化 Skill 沉淀:不同领域论文风格差异大(严谨推导 vs 叙事铺垫等)。应通过喂入本领域高质量参考论文,沉淀专属写作 Skill,明确结构、风格及习惯要求。

4. 代码开发(Code Agent)工作流

  • 工具演变:从 Cursor 进化至 Claude Code、Codex、Gemini CLI 及 OpenCode。通过 Claude-Code-Bridge (CCB) 串联使用,构思清晰后交由 GPT 模型在 xhigh 模式下严格执行。
  • 复杂需求处理流程
    1. 需求澄清:将模糊想法同时发给多个 AI,让它们整理需求并反向提问(原则:宁可多探索 10 步,也不问用户可自寻的问题)。
    2. 迭代确认:用户回答 AI 提问,AI 输出可视化 ASCII 原型图,不断迭代直至方案无重大问题。
    3. 执行:最终交由 GPT 模型完成代码生成。若模型偷懒,可使用类似 pua 的 Skill 施加压迫感,驱动其穷尽方案。
  • 模型特点对比
    • GPT / Codex:严谨,GPT-5.5 在语言表达上较 GPT-5.4 有改进。
    • Claude (Opus 4.6):表达能力强,速度快,工具调用优秀,但价格昂贵;Opus 4.7 出现失误。
    • Gemini:前端及发散思维不错,但整体略落后。
    • Grok:搜索能力强,审查宽松,推荐搭配 grok-search MCP。

5. 系统维护:定期复盘与做减法

  • Skill 收敛原则:OpenAI 和 Anthropic 均建议工具收敛。过多的 Skill 会导致模型选择犹豫、变慢或上下文被拖垮。
  • 定期复盘:检查 Skill 是否带来增量价值。若多个 Skill 功能重叠或长期闲置,应关闭或删除。
  • 质量验证:公开 Skill 质量参差不齐,需自行测试“使用前后”的差异。
  • 协作本质:与 AI 协作不仅是做加法(安装 Skill),更是做减法(去除噪声)。

关键要点

  • 协作范式转变:从“人翻译意图给机器”转变为“人机协作”,AI 应被视为具备记忆和沉淀能力的“同事”。
  • 降低摩擦力:通过划词工具栏、IM 远程调用等方式,让 AI 入口尽可能贴近工作流,提升使用频率和价值挖掘。
  • 元提示词与 Skill 化:让 AI 生成 Prompt,并将常用工作流固化为 Skill(Agent 术语),实现经验沉淀和效率
查看原文 →linux.do