技术博客arXiv cs.CL·3 小时前

LANTERN：零LLM调用的长对话记忆归档与检索网络

原标题：LANTERN: Layered Archival and Temporal Episodic Retrieval Network for Long-Context LLM Conversations

速览

大型语言模型在压缩对话历史时往往丢失关键细节。LANTERN是一种轻量级记忆层，通过混合检索主动归档并恢复上下文，无需LLM调用且延迟低于25毫秒。实验显示，该方法在恢复丢失事实方面优于MemGPT基线，并使多款生产模型的事实问答准确率平均提升8.4个百分点。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）