Codebase Memory MCP:高性能代码智能 MCP 服务器
速览
该项目是一个高性能的代码智能 MCP 服务器,支持 158 种编程语言,能在毫秒内完成代码库索引并实现亚毫秒级查询。它通过构建持久化知识图谱,相比传统方法减少 99% 的 Token 使用量,且提供单静态二进制文件,零依赖部署。
AI 深度解读
这是什么
Codebase Memory 是由 DeusData 开发的一款高性能代码智能引擎,旨在为 AI 编程代理(AI Coding Agents)提供极速、高效的代码库上下文感知能力。它通过基于 Tree-sitter 的 AST 分析和混合 LSP 语义解析,将代码库转化为持久化的知识图谱(Knowledge Graph)。
该项目以单静态二进制文件形式分发,支持 macOS、Linux 和 Windows,无需 Docker 或运行时依赖。其核心优势在于极致的索引速度——能在毫秒级完成平均仓库的全量索引,甚至在 3 分钟内完成包含 2800 万行代码(LOC)和 7.5 万个文件的 Linux 内核级别的索引。作为 MCP(Model Context Protocol)服务器运行,它直接对接主流 AI 编程代理,提供结构化的代码查询能力。
解决的问题
传统 AI 编程代理在处理大型代码库时,通常采用“逐文件搜索”或“全量读取”的方式,这导致了以下痛点:
- Token 消耗巨大:通过 grep 或读取大量文件来获取上下文,往往需要消耗数十万 Token,成本高昂且容易超出上下文窗口限制。
- 查询延迟高:文件级搜索无法理解代码间的结构关系(如调用链、继承关系),导致 AI 难以快速定位核心逻辑。
- 缺乏全局视野:传统工具难以跨文件、跨服务地追踪 HTTP 路由、依赖关系或数据流,导致代码重构或影响分析时容易遗漏关键节点。
- 环境配置复杂:许多代码分析工具需要复杂的依赖安装、API Key 配置或容器化部署,阻碍了开发者快速集成 AI 辅助能力。
Codebase Memory 通过构建本地化的代码知识图谱,将非结构化的代码文本转化为结构化的图数据,从而解决上述效率与成本问题。
核心功能
-
极速索引与本地处理:
- 采用 RAM-first 管道,结合 LZ4 压缩、内存中 SQLite 和融合的 Aho-Corasick 模式匹配算法。
- 索引完成后自动释放内存,确保资源高效利用。
- 所有数据处理 100% 本地完成,代码不会离开开发者机器,保障隐私安全。
-
多语言知识图谱构建:
- 内置 158 种语言的 Tree-sitter 语法解析器,涵盖 Python, TypeScript/JSX/TSX, PHP, C#, Go, C/C++, Java, Kotlin, Rust 等。
- 针对主流语言增强混合 LSP 语义类型解析,生成包含函数、类、调用链、HTTP 路由及跨服务链接的持久化知识图谱。
-
14 种 MCP 工具支持:
- 架构分析:
get_architecture单次调用即可返回语言、包、入口点、路由、热点、边界、层级和聚类信息。 - 结构查询:支持类 Cypher 的图查询语言(如
MATCH (f:Function)-[:CALLS]->(g)),快速追踪调用关系。 - 语义搜索:基于内置的 Nomic
nomic-embed-code嵌入模型(40K tokens, 768d int8),无需 API Key 或 Ollama,实现基于 11 种信号(TF-IDF, RRI, API 签名, AST 特征等)的综合评分搜索。 - 死代码检测:识别零调用者函数(排除入口点)。
- 影响分析:结合 Git diff,映射未提交更改到受影响符号,并进行风险分类。
- 基础设施即代码索引:将 Dockerfiles、Kubernetes 清单和 Kustomize 覆盖层索引为图节点,支持资源节点、模块节点及导入边的交叉引用。
- 架构分析:
-
可视化与自动化:
- 内置 3D 交互式图形可视化 UI(可选变体),运行于
localhost:9749,支持跨仓库架构的多星系布局。 - 支持自动索引:在 MCP 会话启动时自动索引新项目,并监控 Git 变更。
- 内置 3D 交互式图形可视化 UI(可选变体),运行于
亮点 / 与同类相比
-
极致的 Token 效率:
- 相比逐文件探索,Codebase Memory 将 Token 消耗降低了 120 倍。例如,12 个结构查询仅需约 3,400 Token,而传统方式需约 412,000 Token。
- 工具调用次数减少 2.1 倍,响应速度提升显著。
-
开箱即用的兼容性:
- 零依赖:单静态二进制文件,无 Docker,无 API Key,无运行时依赖。
- 广泛兼容:自动检测并配置 11 种主流编程代理(Claude Code, Codex CLI, Gemini CLI, Zed, OpenCode, Antigravity, Aider, KiloCode, VS Code, OpenClaw, Kiro)的 MCP 条目、指令文件和预工具钩子。
-
深度语义理解:
- 不仅支持基于正则的结构搜索,还通过混合 LSP 解析实现了真正的语义类型解析。
- 支持 gRPC, GraphQL, tRPC 服务检测及 Protobuf 路由提取。
- 支持 Socket.IO, EventEmitter 等 Pub/Sub 模式的通道检测(
EMITS/LISTENS_ON边)。
-
学术验证的性能:
- 根据 arXiv 预印本论文评估,在 31 个真实仓库中测试,回答质量达到 83%,且显著优于传统的文件逐文件探索方法。
-
安全与信任:
- 每个发布版本均经过签名、校验和检查,并由 70+ 防病毒引擎扫描。
- 提供
install命令自动剥离 macOS 隔离属性并进行临时签名,简化部署流程。
适合谁用 / 上手
适合人群:
- 使用 AI 编程代理(如 Cursor, VS Code Copilot, Claude Code 等)进行大型项目开发的开发者。
- 需要快速理解遗留代码库结构、进行大规模重构或影响分析的工程团队。
- 关注代码隐私,要求所有分析在本地完成的企业级用户。
- 希望降低 AI 调用 Token 成本并提高查询准确性的开发者。
上手指南:
-
快速安装(macOS / Linux):
curl -fsSL https://raw.githubusercontent.com/DeusData/codebase-memory-mcp/main/install.sh | bash- 如需启用 3D 可视化 UI,添加
--ui参数:curl -fsSL https://raw.githubusercontent.com/DeusData/codebase-memory-mcp/main/install.sh | bash -s -- --ui
- 如需启用 3D 可视化 UI,添加
-
Windows 安装(PowerShell):
# 1. 下载安装脚本 Invoke-WebRequest -Uri https://raw.githubusercontent.com/DeusData/codebase-memory-mcp/main/install.ps1 -OutFile install.ps1 # 2. 建议先审查脚本内容 notepad install.ps1 # 3. 运行安装 .\install.ps1 -
手动安装:
- 从 GitHub Releases 下载对应平台的
.tar.gz(macOS/Linux) 或.zip(Windows) 归档文件。 - 解压后运行
install.sh或install.ps1。 - 重启你的编程代理,代理将自动识别并配置 MCP 服务器。
- 从 GitHub Releases 下载对应平台的
-
开始使用:
- 在编程代理中输入 "Index this project" 即可开始索引。
- 索引完成后,即可通过自然语言或结构化查询与代码库交互。
- 若安装了 UI 变体,可访问
http://localhost:9749查看 3D 知识图谱。
-
**配置选项
