AI 资讯Hacker News·1 小时前

告别Token浪费：跨会话无需重复解释项目

原标题：Stop wasting tokens and re explaining your project between sessions

速览

该资讯指出在AI对话中，用户常因会话重置而被迫重复输入项目上下文，导致Token浪费和体验割裂。通过改进上下文管理或记忆机制，AI能够自动保留之前的项目信息，无需用户反复解释。这一优化不仅显著降低了使用成本，还提升了开发者和创作者的工作流效率。

AI 深度解读

停止浪费 Token：Recall 如何为 Claude Code 提供零成本、隐私安全的本地会话记忆

背景

在使用 Claude Code 等基于大语言模型（LLM）的编程助手时，开发者常面临一个痛点：每次开启新的会话（Session），模型都会“冷启动”，不记得之前的上下文。这意味着开发者必须反复重新解释项目结构、当前目标和已完成的步骤。这不仅浪费了宝贵的 Token 配额，还降低了工作效率。

传统的解决方案通常依赖外部 API 或云端服务来存储和检索上下文，但这带来了额外的费用、隐私泄露风险以及网络依赖问题。针对这一困境，开发者 Raiyan Yahya 推出了 Recall 插件。这是一个专为本地运行 Claude Code 的订阅用户设计的工具，旨在解决“冷启动”问题，同时确保数据完全留在本地，不产生额外的 API 调用费用。

核心内容

Recall 的核心设计理念是“本地化”与“零成本”。它通过记录会话历史并在本地生成摘要，帮助 Claude Code 在每次新会话开始时快速恢复上下文，而无需调用任何外部模型或发送数据到云端。

1. 工作原理：本地算法而非 LLM 调用

Recall 并不使用 LLM 来生成摘要，而是采用经典的 Python 自然语言处理算法：TF-IDF（词频-逆文档频率）结合 TextRank（一种基于图排序的文本摘要算法）。

历史日志 (history.md)：这是一个追加写入的文件，实时记录每次会话的内容，包括用户的提示词、Claude 的回复、操作的文件路径以及执行的命令。
上下文摘要 (context.md)：这是 Recall 的核心产出。它由本地脚本 scripts/summarizer.py 生成，内容被覆盖更新。该摘要包含当前目标、项目状态、下一步计划、涉及的文件以及断点位置。
算法实现：
- 计算句子向量的 TF-IDF。
- 构建句子间的余弦相似度图。
- 在图上运行 TextRank（基于 PageRank 的幂迭代算法）对句子进行打分。
- 保留得分最高的 N 个句子，并保持其原始顺序。
- 最后，将提取的事实（如 Git diff 统计、Git 状态）包裹在摘要中，形成最终的 context.md。

2. 隐私与安全承诺

Recall 强调“没有任何数据离开你的机器”：

无 API 密钥：不需要配置任何 API Key，也不发送任何数据到外部模型。
本地运行：所有处理均在本地机器完成，支持离线工作。
隐私保障：大多数“记忆”工具会将上下文管道传输到模型端点，而 Recall 提供了它们无法提供的隐私保证。
脱敏处理：在写入文件前，Recall 会尽力剥离常见的秘密形状（如 API 密钥、Token、.env 赋值、PEM 密钥等），以防止在提交代码时泄露敏感信息。但需注意，这只是“尽力而为”，提交前仍需人工审查。

3. 使用体验与集成

零摩擦安装：无需 pip install，无需运行本地模型，无需配置密钥。插件加载即生效。
命令控制：
- /recall:save：运行本地摘要器，覆盖写入 context.md。
- /recall:show：打印当前的 context.md。
- /recall:log：查看 history.md 的尾部内容。
Git 集成：Recall 读取 Git 状态时禁用了 core.fsmonitor、diff.external 和 hooks，并关闭分页器，以防止不受信任的克隆仓库利用 Git 配置执行恶意代码。
写入限制：输出目录被强制限制在项目内部，防止配置文件重定向写入到绝对路径或上级目录。

4. 安全边界与团队协作

提示注入风险：context.md 会在会话开始时注入到模型中。如果将其作为团队共享记忆提交到 Git，队友或恶意行为者可能通过构造 context.md 尝试提示注入。Claude 会在依赖此内容前询问用户，但如果不完全信任仓库写入权限，建议将 .recall/ 目录加入 .gitignore（默认已忽略）。
个人 vs 团队：开发者可以选择提交 .recall/ 以实现团队共享记忆，或保持忽略以实现个人记忆。

5. 技术细节与依赖

依赖项：实现完全基于 Python 标准库。如果系统安装了 numpy，则用于加速向量计算；否则，使用纯 Python 实现 TextRank。两者结果一致，numpy 仅为可选加速器。
CI/CD：项目包含完整的测试套件、Lint 检查（Ruff）、安全静态分析（Bandit）、CodeQL 扫描和秘密扫描，支持 Python 3.9 至 3.13。

关键要点

零 Token 成本：摘要生成完全在本地通过经典算法完成，不消耗任何 LLM Token，不产生额外 API 费用，仅消耗本地计算资源。
极致隐私：所有会话转录数据（代码、路径、甚至有时包含的秘密）均保留在本地，从未发送至任何 API 端点。
解决冷启动：通过加载约 1–2K Token 的紧凑 context.md，避免每次会话重新解释项目，显著节省 Token 并提升效率。
无外部依赖：无需安装额外包，无需配置密钥，支持离线工作，插件加载即用。
安全加固：
- 自动脱敏常见密钥格式。
- 限制 Git 命令执行环境，防止恶意配置。
- 强制输出目录在项目内，防止路径遍历攻击。
- 明确提示注入风险，建议团队使用时谨慎配置 Git 忽略规则。
透明算法：使用 TF-IDF + TextRank 进行提取式摘要，算法逻辑清晰，结果可预测，不依赖黑盒模型。
易于集成：通过 Marketplace 一键安装，或通过本地目录直接加载，提供 /recall:save、/recall:show、/recall:log 等便捷命令。

意义与影响

Recall 的出现代表了 AI 辅助开发工具向本地化、隐私优先和成本可控方向的重要演进。

重新定义“记忆”的成本结构：大多数 AI 记忆工具依赖昂贵的 LLM 调用来理解、压缩和检索上下文。Recall 证明了对于结构化或半结构化的开发会话日志，经典的 NLP 算法足以提供高质量的上下文摘要，从而将记忆成本降至零。这对于高频使用 Claude Code 订阅服务的开发者而言，具有直接的经济价值。
强化数据主权与隐私：在数据隐私日益受到关注的背景下，Recall 提供了一种无需妥协隐私即可享受 AI 便利性的方案。它消除了将代码上下文发送至第三方服务器的风险，特别适合处理敏感代码或受合规约束的企业环境。
提升开发者工作流效率：通过消除重复解释项目的需要，Recall 让开发者能够更专注于编码本身，而非维护与 AI 的“对话历史”。紧凑的上下文摘要不仅节省 Token，也减少了模型处理冗余信息带来的延迟。
开源与透明的典范：Recall 完全开源，算法透明，且包含严格的安全审计和 CI 流程。这种透明度有助于建立开发者信任，并为其他本地 AI 工具提供了安全实现的最佳实践参考。

总之，Recall 不仅是一个实用的 Claude Code 插件，更是一种理念：在享受 AI 强大能力的同时，通过本地化、经典算法和严格的安全设计，实现高效、经济且隐私友好的开发体验。

查看原文 →github.com