Agent SkillLINUX DO · AI·2026/4/14

复旦团队发布GenericAgent：3K代码实现自进化与四层记忆

原标题：GenericAgent——复旦团队研发 | 仅仅~3K 行代码 Self-Evolving Agent

速览

复旦团队发布开源项目GenericAgent，仅用约3K行代码实现具备自进化能力的AI Agent。该项目引入四层分级记忆机制，支持任务完成后自动蒸馏为SOP，并拥有高效的WebCanvas浏览器工具，显著降低Token开销并提升精度。相比OpenClaw和Claude Code，GenericAgent在长程任务处理上表现优异，且已适配多种API渠道及缓存优化策略。

AI 深度解读

背景

在 AI Agent 领域，随着 LLM 能力的提升，基于大模型的自动化代理（Agent）逐渐成为开发者提升效率的重要工具。然而，现有的主流 Agent 框架（如 OpenClaw、Claude Code 等）往往存在 Token 消耗巨大、工具调用冗余、记忆机制复杂以及幻觉问题严重等痛点。

在此背景下，复旦大学团队研发了 GenericAgent（简称 GA）。该项目以极简的代码量（约 3K 行代码）为核心卖点，旨在通过精简的原子工具、高效的记忆机制和自进化能力，解决长程任务中的效率与成本问题。该开源项目已在 LINUX DO 社区进行推广，并强调其通过“解锁”全部能力后，能在长程任务中超越 OpenClaw，在 Token 消耗上优于 Claude Code。

核心内容

GenericAgent 的设计哲学在于“少即是多”，通过极简架构实现高性能。其核心特性主要体现在以下几个方面：

1. 极简原子工具与高效调用

与 Claude Code 内置的 53 个工具或 OpenClaw 的 22 个工具不同，GenericAgent 仅保留了 9 个原子工具。这种精简设计旨在减少模型在工具选择上的认知负荷，从而提高工具调用的准确性和执行效率，专注于最小可行产品（MVP）的高效完成。

2. 四层分级记忆系统

GA 引入了独特的四层记忆机制，这是其降低 Token 开销的关键杀手锏。

机制要求：用户需在后台开启 scheduler 才能激活记忆系统。
L4 记忆能力：启用 L4 层级后，Agent 具备长期记忆能力，能够回溯并知晓用户上周的操作、特定 Session 或启动时完成的任务历史。
效果：通过结构化记忆，避免了重复上下文输入，显著优化了长程任务的上下文管理。

3. 反思驱动自进化（Self-Evolving）

GA 具备任务完成后的自动蒸馏能力。当任务结束后，Agent 会自动将执行过程提炼为标准操作程序（SOP）。这种“反思驱动”的机制使得 Agent 能够随着使用次数增加而不断进化，提升后续类似任务的执行效率。

4. 结构化浏览器提取（WebCanvas）

这是 GA 的“最大杀招”，旨在替代 Playwright 等传统浏览器自动化工具。

性能优势：相比 OpenClaw，WebCanvas 在 Web 任务评分上高出 11.2 分，而 Token 消耗仅为后者的 1/4。
技术实现：通过 Chrome 插件 tmwd_cdp_bridge 实现与浏览器的深度交互，结合 SOP 指南（如 tmwebdriver_sop.md 和 ljqCtrl_sop.md），实现了高精度的网页信息提取。
建议：官方建议用户移除 skills.sh 上原有的 Agent Browser 操作，转而安装此组件以获得更优体验。

5. 上下文长度与 Token 效率

在相同输入（如 "Hello"）下，GA 的 Prompt 长度仅为 2298 tokens，远低于 Claude Code 的 22821 tokens 和 OpenClaw 的 43321 tokens。这种极致的精简使得 GA 在处理复杂任务时具有显著的成本优势。

6. 兼容性与缓存优化

渠道适配：GA 已适配 Anyrouter、Ampere.sh 等主流中转渠道，并解决了 v1/openrouter 接口中 OAI 缓存不足的问题。
缓存策略：实现了针对 OAI 和 Claude Code 两种接口的缓存优化策略，支持从 5 分钟到 1 天的多级缓存配置，进一步降低调用成本。

7. 反检测与安全性

CRS 检测：GA 能够绕过 CRS（Cloudflare Turnstile 等）的客户端检测。在小批量测试中，成功通过了 Claude Code Max 中转服务的检测，未出现如 OpenClaw 常见的“秒封”现象。
免责声明：尽管模拟了客户端行为并处理了 System Prompt，但官方不建议用户将其用于违反服务条款的行为，因为检测机制在不断变化。

8. 未来规划

Desktop Pet：即将发布的新版本将加入“桌面宠物”功能，作为作者的个性化爱好展示。
MultiAgent Manager Web Service：计划上线多任务多窗口守护进程监控服务，支持对 OpenClaw、Claude Code、GA 等多 Agent 进行实时状态监控，并通过桌面或桌宠形式通知任务完成状态。

关键要点

代码极简：仅约 3K 行代码，架构轻量，易于理解和二次开发。
记忆机制：必须开启 scheduler 并执行 GETTING_STARTED.md 中的指令以解锁全部能力，否则 Agent 仅具备短期或无记忆能力。
Token 优势：Prompt 长度仅为竞品的 1/10 甚至 1/20，大幅降低推理成本。
浏览器工具：WebCanvas 功能在精度和 Token 效率上显著优于 OpenClaw 和 Playwright，是处理 Web 任务的首选。
自进化能力：通过自动蒸馏 SOP 实现 Agent 的自我优化，适合长期复用的工作流。
环境依赖：用户需自行配置环境依赖，让 Agent 具备“眼睛和双手”（即文件系统访问和浏览器控制能力），否则无法发挥实际效用。
社区驱动：项目依赖 LINUX DO 社区反馈，官方鼓励用户互相交流，并承诺后续发布详细的能力解锁教程。

意义与影响

GenericAgent 的出现为 AI Agent 的开发提供了一条“轻量化、高效率”的新路径。其核心价值在于证明了通过精简工具集、优化记忆结构和引入自进化机制，可以在不依赖庞大模型上下文的前提下，实现甚至比大型商业 Agent 更优的性能和更低的成本。

对于开发者而言，GA 提供了一个极佳的参考案例，展示了如何平衡 Agent 的功能性与资源消耗。特别是其结构化浏览器提取技术和四层记忆机制，为解决 Agent 领域的幻觉问题和 Token 瓶颈提供了新的思路。此外，其对主流中转渠道的广泛适配和缓存优化，也降低了普通用户使用高级 LLM 服务的门槛，推动了 AI 工具在日常工作流中的普及。

查看原文 →linux.do