AI 资讯量子位·8 天前

DeepSeek陈德里开发自动研究Skill：AI代写99%论文，人类仅耗时2小时

原标题：DeepSeek陈德里开发自动研究Skill，写一篇论文人类只动脑2小时

速览

DeepSeek研究员陈德里开发了一款名为“自动研究Skill”的工具，旨在大幅提升学术写作效率。该工具通过Agent自动生成论文99%的内容，人类研究者仅需投入约2小时进行核心思考与审核。这一进展展示了AI在自动化科研流程中的强大潜力，有望重塑未来的学术生产模式。

AI 深度解读

背景

随着基础大模型能力的提升，AI 工具正从单纯的“研究辅助”角色向“自主研究”角色转变。然而，当前 AI 智能体（Agent）领域缺乏统一的框架，术语混乱且评估标准不一。DeepSeek 研究员陈德里在其个人博客发布了一篇研究综述论文，旨在梳理这一领域的现状与未来。

陈德里利用其自研的技能 DeliAutoResearch，结合 DeepSeek-V4-Pro 进行研究与写作，并使用 GPT-Image2 生成图表，独立完成了一篇关于自动研究智能体自主度分类体系的综述。据其自述，这篇论文中 1% 的内容由人类撰写，99% 由 Agent 完成。整个研究过程历时 6 天，经过 6 次迭代，进行了约 108 轮 Agent 调用，消耗 64.8 万 token，最终产出一篇 46 页、包含 103 个已验证参考文献的完整论文。陈德里表示，其作为“碳基大脑”处理该问题的总 CPU 时间不到 2 小时。

核心内容

该综述论文的核心贡献在于提出了一个类比于自动驾驶 SAE 级别的 L1–L5 自主度分级体系，并对当前主流的 AI 智能体架构进行了分类对比与评估。

1. 智能体自主度分级体系（L1–L5）

论文将 AI 智能体的自主性划分为五个层级，清晰地描绘了从辅助到完全自主的演进路径：

L1（基础自动补全）： 最基础的自动化形式，以 GitHub Copilot 为代表，主要功能是预测并补全下一行代码。
L2（任务执行）： 以 ChatGPT、Claude 等聊天机器人为代表，能够分解任务并调用工具，但每一步操作均需人类批准。
L3（多步骤执行）： 目前最主流的模式，以 Claude Code、Cursor Agent 为代表。智能体可自主执行 10 到 100 步操作，仅在关键节点请求人类审核。
L4（受限领域全自主）： 人类仅提供研究目标和评估标准，智能体可在特定领域内自主完成多步实验、代码编写及论文撰写，但无法自主选择研究问题。目前行业前沿初步达到此级别。
L5（完全自主研究）： 理想状态。智能体可自主选题、分配资源、长期积累知识并进行跨领域持续研究。目前尚未实现，核心瓶颈在于持续知识积累、可靠自我评估及架构规模化。

2. 四大主流架构模式

除了按自主性分级，论文还从架构角度总结了四种主流模式，并分析了各自的适用场景：

单智能体循环： 以 ReAct、Reflexion、LATS、思维树（ToT）等早期研究为代表。通过单模型迭代“推理-行动-观察”，简单高效，但处理复杂任务能力有限。
多智能体协作： 以 CAMEL、AutoGen、MetaGPT 等框架为代表。特点是分工协作和多视角纠错，但成本较高，且容易因沟通混乱导致效率降低。
分层调度： 以 Claude Code、Devin 等为代表。通过分层规划和任务分解，适合长时程、高复杂度的研究任务，具备强规划能力和易监管特性。
工具增强执行： 以 SWE-Agent 等为代表。核心在于代码执行环境、网页浏览、API/数据库及多模态工具的使用。Agent-Computer Interface (ACI) 的设计直接决定其性能上限。

论文指出，这四种模式无绝对优劣，实际应用中多采用混合架构以结合各模式优势。

3. 行业现状与瓶颈分析

通过对 17 个主流系统的六维特征矩阵分析，论文指出：

代码智能体的成熟度最高，科学智能体开始产出可验证的新发现。
领域已从早期的通用脆弱原型，演进为 L4 级的受限域专用系统。
核心瓶颈： 真正的瓶颈并非模型本身的推理能力，而是持续知识积累、可靠自我评估以及架构规模化能力。

4. 六大开放问题

论文最后提出了阻碍 L5 级智能体实现的六大开放性问题：

认知循环陷阱： 智能体陷入重复无效策略，缺乏自我终止能力。
上下文限制： 固定的上下文窗口（4K-1M token）无法支撑长时程研究。
创新性评估： 缺乏自动化方法来衡量研究的原创性与价值。
可复现性： 模型的随机性和提示敏感性导致结果难以复现。
安全伦理： 涉及双用途风险、自主提升风险及学术诚信风险。
成本问题： 单任务成本高昂（约 50 美元以上），加剧了科研不平等。

关键要点

人类角色转变： 在高度自动化的研究流程中，人类角色从“执行者”转变为“发起者”和“审核者”。陈德里称其总脑力投入不到 2 小时，而 Agent 承担了绝大部分工作。
L4 是当下前沿： 目前行业最高水平处于 L4 级别（受限领域全自主），L5（完全自主）仍属于设想阶段。
架构选择逻辑：
- 简单短任务：选单智能体循环（低成本、易实现）。
- 复杂分工/多视角纠错：选多智能体协作。
- 长时程/高复杂度：选分层调度。
- 需对接外部工具/环境：选工具增强执行。
技术瓶颈明确： 阻碍 AI 实现完全自主研究（L5）的关键不在于算力或模型智商，而在于知识积累的持续性和自我评估的可靠性。
潜在风险： 代码智能体的爆发导致计算机科学论文数量激增，引发了对学术诚信、研究可复现性及科研资源分配不平等的担忧。

意义与影响

陈德里的这篇论文及其实践案例，标志着 AI 辅助科研进入了一个新的阶段：从“工具辅助”向“代理协作”的实质性跨越。

首先，它提供了一个标准化的分类框架（L1-L5），有助于学术界和工业界统一术语，厘清当前 AI Agent 的能力边界。这对于评估不同智能体系统的成熟度、制定相应的伦理规范和安全标准具有重要意义。

其次，该案例展示了“AI 原生工作流”的巨大潜力。通过 DeliAutoResearch 技能，一名研究员可以在极短时间内完成一篇涵盖文献综述、架构分析、系统评估及未来展望的高质量综述论文。这不仅极大地提高了科研效率，也重新定义了知识生产的方式——人类负责定义问题、设定目标和最终把关，而 AI 负责执行、整合与生成。

最后，论文揭示的六大开放问题为未来的研究方向指明了路径。特别是关于“持续知识积累”和“可靠自我评估”的瓶颈，提示开发者需要超越单纯的模型微调，转向构建更稳定的记忆机制、更严谨的自我反思架构以及更高效的上下文管理策略。随着这些问题的逐步解决，AI 有望在科学发现、代码开发等领域扮演更接近“独立研究者”的角色，从而引发科研范式的深刻变革。

查看原文 →qbitai.com