← 返回信息流
GitHub 热榜GitHub Trending · 周·1 小时前

Codebase Memory MCP:高性能代码智能 MCP 服务器

原标题:DeusData/codebase-memory-mcp
C4,330 stars+844 本周

速览

该项目是一个高性能的代码智能 MCP 服务器,支持 158 种编程语言,能在毫秒内完成代码库索引并实现亚毫秒级查询。它通过构建持久化知识图谱,相比传统方法减少 99% 的 Token 使用量,且提供单静态二进制文件,零依赖部署。

AI 深度解读

这是什么

Codebase Memory 是由 DeusData 开发的一款高性能代码智能引擎,旨在为 AI 编程代理(AI Coding Agents)提供极速、高效的代码库上下文感知能力。它通过基于 Tree-sitter 的 AST 分析和混合 LSP 语义解析,将代码库转化为持久化的知识图谱(Knowledge Graph)。

该项目以单静态二进制文件形式分发,支持 macOS、Linux 和 Windows,无需 Docker 或运行时依赖。其核心优势在于极致的索引速度——能在毫秒级完成平均仓库的全量索引,甚至在 3 分钟内完成包含 2800 万行代码(LOC)和 7.5 万个文件的 Linux 内核级别的索引。作为 MCP(Model Context Protocol)服务器运行,它直接对接主流 AI 编程代理,提供结构化的代码查询能力。

解决的问题

传统 AI 编程代理在处理大型代码库时,通常采用“逐文件搜索”或“全量读取”的方式,这导致了以下痛点:

  1. Token 消耗巨大:通过 grep 或读取大量文件来获取上下文,往往需要消耗数十万 Token,成本高昂且容易超出上下文窗口限制。
  2. 查询延迟高:文件级搜索无法理解代码间的结构关系(如调用链、继承关系),导致 AI 难以快速定位核心逻辑。
  3. 缺乏全局视野:传统工具难以跨文件、跨服务地追踪 HTTP 路由、依赖关系或数据流,导致代码重构或影响分析时容易遗漏关键节点。
  4. 环境配置复杂:许多代码分析工具需要复杂的依赖安装、API Key 配置或容器化部署,阻碍了开发者快速集成 AI 辅助能力。

Codebase Memory 通过构建本地化的代码知识图谱,将非结构化的代码文本转化为结构化的图数据,从而解决上述效率与成本问题。

核心功能

  • 极速索引与本地处理

    • 采用 RAM-first 管道,结合 LZ4 压缩、内存中 SQLite 和融合的 Aho-Corasick 模式匹配算法。
    • 索引完成后自动释放内存,确保资源高效利用。
    • 所有数据处理 100% 本地完成,代码不会离开开发者机器,保障隐私安全。
  • 多语言知识图谱构建

    • 内置 158 种语言的 Tree-sitter 语法解析器,涵盖 Python, TypeScript/JSX/TSX, PHP, C#, Go, C/C++, Java, Kotlin, Rust 等。
    • 针对主流语言增强混合 LSP 语义类型解析,生成包含函数、类、调用链、HTTP 路由及跨服务链接的持久化知识图谱。
  • 14 种 MCP 工具支持

    • 架构分析get_architecture 单次调用即可返回语言、包、入口点、路由、热点、边界、层级和聚类信息。
    • 结构查询:支持类 Cypher 的图查询语言(如 MATCH (f:Function)-[:CALLS]->(g)),快速追踪调用关系。
    • 语义搜索:基于内置的 Nomic nomic-embed-code 嵌入模型(40K tokens, 768d int8),无需 API Key 或 Ollama,实现基于 11 种信号(TF-IDF, RRI, API 签名, AST 特征等)的综合评分搜索。
    • 死代码检测:识别零调用者函数(排除入口点)。
    • 影响分析:结合 Git diff,映射未提交更改到受影响符号,并进行风险分类。
    • 基础设施即代码索引:将 Dockerfiles、Kubernetes 清单和 Kustomize 覆盖层索引为图节点,支持资源节点、模块节点及导入边的交叉引用。
  • 可视化与自动化

    • 内置 3D 交互式图形可视化 UI(可选变体),运行于 localhost:9749,支持跨仓库架构的多星系布局。
    • 支持自动索引:在 MCP 会话启动时自动索引新项目,并监控 Git 变更。

亮点 / 与同类相比

  • 极致的 Token 效率

    • 相比逐文件探索,Codebase Memory 将 Token 消耗降低了 120 倍。例如,12 个结构查询仅需约 3,400 Token,而传统方式需约 412,000 Token。
    • 工具调用次数减少 2.1 倍,响应速度提升显著。
  • 开箱即用的兼容性

    • 零依赖:单静态二进制文件,无 Docker,无 API Key,无运行时依赖。
    • 广泛兼容:自动检测并配置 11 种主流编程代理(Claude Code, Codex CLI, Gemini CLI, Zed, OpenCode, Antigravity, Aider, KiloCode, VS Code, OpenClaw, Kiro)的 MCP 条目、指令文件和预工具钩子。
  • 深度语义理解

    • 不仅支持基于正则的结构搜索,还通过混合 LSP 解析实现了真正的语义类型解析。
    • 支持 gRPC, GraphQL, tRPC 服务检测及 Protobuf 路由提取。
    • 支持 Socket.IO, EventEmitter 等 Pub/Sub 模式的通道检测(EMITS/LISTENS_ON 边)。
  • 学术验证的性能

    • 根据 arXiv 预印本论文评估,在 31 个真实仓库中测试,回答质量达到 83%,且显著优于传统的文件逐文件探索方法。
  • 安全与信任

    • 每个发布版本均经过签名、校验和检查,并由 70+ 防病毒引擎扫描。
    • 提供 install 命令自动剥离 macOS 隔离属性并进行临时签名,简化部署流程。

适合谁用 / 上手

适合人群:

  • 使用 AI 编程代理(如 Cursor, VS Code Copilot, Claude Code 等)进行大型项目开发的开发者。
  • 需要快速理解遗留代码库结构、进行大规模重构或影响分析的工程团队。
  • 关注代码隐私,要求所有分析在本地完成的企业级用户。
  • 希望降低 AI 调用 Token 成本并提高查询准确性的开发者。

上手指南:

  1. 快速安装(macOS / Linux):

    curl -fsSL https://raw.githubusercontent.com/DeusData/codebase-memory-mcp/main/install.sh | bash
    
    • 如需启用 3D 可视化 UI,添加 --ui 参数:
      curl -fsSL https://raw.githubusercontent.com/DeusData/codebase-memory-mcp/main/install.sh | bash -s -- --ui
      
  2. Windows 安装(PowerShell):

    # 1. 下载安装脚本
    Invoke-WebRequest -Uri https://raw.githubusercontent.com/DeusData/codebase-memory-mcp/main/install.ps1 -OutFile install.ps1
    # 2. 建议先审查脚本内容
    notepad install.ps1
    # 3. 运行安装
    .\install.ps1
    
  3. 手动安装:

    • 从 GitHub Releases 下载对应平台的 .tar.gz (macOS/Linux) 或 .zip (Windows) 归档文件。
    • 解压后运行 install.shinstall.ps1
    • 重启你的编程代理,代理将自动识别并配置 MCP 服务器。
  4. 开始使用:

    • 在编程代理中输入 "Index this project" 即可开始索引。
    • 索引完成后,即可通过自然语言或结构化查询与代码库交互。
    • 若安装了 UI 变体,可访问 http://localhost:9749 查看 3D 知识图谱。
  5. **配置选项

查看原文 →github.com