复旦团队发布GenericAgent:3K代码实现自进化与四层记忆
速览
复旦团队发布开源项目GenericAgent,仅用约3K行代码实现具备自进化能力的AI Agent。该项目引入四层分级记忆机制,支持任务完成后自动蒸馏为SOP,并拥有高效的WebCanvas浏览器工具,显著降低Token开销并提升精度。相比OpenClaw和Claude Code,GenericAgent在长程任务处理上表现优异,且已适配多种API渠道及缓存优化策略。
AI 深度解读
背景
在 AI Agent 领域,随着 LLM 能力的提升,基于大模型的自动化代理(Agent)逐渐成为开发者提升效率的重要工具。然而,现有的主流 Agent 框架(如 OpenClaw、Claude Code 等)往往存在 Token 消耗巨大、工具调用冗余、记忆机制复杂以及幻觉问题严重等痛点。
在此背景下,复旦大学团队研发了 GenericAgent(简称 GA)。该项目以极简的代码量(约 3K 行代码)为核心卖点,旨在通过精简的原子工具、高效的记忆机制和自进化能力,解决长程任务中的效率与成本问题。该开源项目已在 LINUX DO 社区进行推广,并强调其通过“解锁”全部能力后,能在长程任务中超越 OpenClaw,在 Token 消耗上优于 Claude Code。
核心内容
GenericAgent 的设计哲学在于“少即是多”,通过极简架构实现高性能。其核心特性主要体现在以下几个方面:
1. 极简原子工具与高效调用
与 Claude Code 内置的 53 个工具或 OpenClaw 的 22 个工具不同,GenericAgent 仅保留了 9 个原子工具。这种精简设计旨在减少模型在工具选择上的认知负荷,从而提高工具调用的准确性和执行效率,专注于最小可行产品(MVP)的高效完成。
2. 四层分级记忆系统
GA 引入了独特的四层记忆机制,这是其降低 Token 开销的关键杀手锏。
- 机制要求:用户需在后台开启
scheduler才能激活记忆系统。 - L4 记忆能力:启用 L4 层级后,Agent 具备长期记忆能力,能够回溯并知晓用户上周的操作、特定 Session 或启动时完成的任务历史。
- 效果:通过结构化记忆,避免了重复上下文输入,显著优化了长程任务的上下文管理。
3. 反思驱动自进化(Self-Evolving)
GA 具备任务完成后的自动蒸馏能力。当任务结束后,Agent 会自动将执行过程提炼为标准操作程序(SOP)。这种“反思驱动”的机制使得 Agent 能够随着使用次数增加而不断进化,提升后续类似任务的执行效率。
4. 结构化浏览器提取(WebCanvas)
这是 GA 的“最大杀招”,旨在替代 Playwright 等传统浏览器自动化工具。
- 性能优势:相比 OpenClaw,WebCanvas 在 Web 任务评分上高出 11.2 分,而 Token 消耗仅为后者的 1/4。
- 技术实现:通过 Chrome 插件
tmwd_cdp_bridge实现与浏览器的深度交互,结合 SOP 指南(如tmwebdriver_sop.md和ljqCtrl_sop.md),实现了高精度的网页信息提取。 - 建议:官方建议用户移除 skills.sh 上原有的 Agent Browser 操作,转而安装此组件以获得更优体验。
5. 上下文长度与 Token 效率
在相同输入(如 "Hello")下,GA 的 Prompt 长度仅为 2298 tokens,远低于 Claude Code 的 22821 tokens 和 OpenClaw 的 43321 tokens。这种极致的精简使得 GA 在处理复杂任务时具有显著的成本优势。
6. 兼容性与缓存优化
- 渠道适配:GA 已适配 Anyrouter、Ampere.sh 等主流中转渠道,并解决了 v1/openrouter 接口中 OAI 缓存不足的问题。
- 缓存策略:实现了针对 OAI 和 Claude Code 两种接口的缓存优化策略,支持从 5 分钟到 1 天的多级缓存配置,进一步降低调用成本。
7. 反检测与安全性
- CRS 检测:GA 能够绕过 CRS(Cloudflare Turnstile 等)的客户端检测。在小批量测试中,成功通过了 Claude Code Max 中转服务的检测,未出现如 OpenClaw 常见的“秒封”现象。
- 免责声明:尽管模拟了客户端行为并处理了 System Prompt,但官方不建议用户将其用于违反服务条款的行为,因为检测机制在不断变化。
8. 未来规划
- Desktop Pet:即将发布的新版本将加入“桌面宠物”功能,作为作者的个性化爱好展示。
- MultiAgent Manager Web Service:计划上线多任务多窗口守护进程监控服务,支持对 OpenClaw、Claude Code、GA 等多 Agent 进行实时状态监控,并通过桌面或桌宠形式通知任务完成状态。
关键要点
- 代码极简:仅约 3K 行代码,架构轻量,易于理解和二次开发。
- 记忆机制:必须开启
scheduler并执行GETTING_STARTED.md中的指令以解锁全部能力,否则 Agent 仅具备短期或无记忆能力。 - Token 优势:Prompt 长度仅为竞品的 1/10 甚至 1/20,大幅降低推理成本。
- 浏览器工具:WebCanvas 功能在精度和 Token 效率上显著优于 OpenClaw 和 Playwright,是处理 Web 任务的首选。
- 自进化能力:通过自动蒸馏 SOP 实现 Agent 的自我优化,适合长期复用的工作流。
- 环境依赖:用户需自行配置环境依赖,让 Agent 具备“眼睛和双手”(即文件系统访问和浏览器控制能力),否则无法发挥实际效用。
- 社区驱动:项目依赖 LINUX DO 社区反馈,官方鼓励用户互相交流,并承诺后续发布详细的能力解锁教程。
意义与影响
GenericAgent 的出现为 AI Agent 的开发提供了一条“轻量化、高效率”的新路径。其核心价值在于证明了通过精简工具集、优化记忆结构和引入自进化机制,可以在不依赖庞大模型上下文的前提下,实现甚至比大型商业 Agent 更优的性能和更低的成本。
对于开发者而言,GA 提供了一个极佳的参考案例,展示了如何平衡 Agent 的功能性与资源消耗。特别是其结构化浏览器提取技术和四层记忆机制,为解决 Agent 领域的幻觉问题和 Token 瓶颈提供了新的思路。此外,其对主流中转渠道的广泛适配和缓存优化,也降低了普通用户使用高级 LLM 服务的门槛,推动了 AI 工具在日常工作流中的普及。
