轻量提示压缩技术CORE助力边缘设备高效问答
原标题:Less is More: Lightweight Prompt Compression for Question Answering Applications on Edge Devices
速览
针对边缘设备资源受限问题,研究者提出CORE方法,通过两阶段句子级提示压缩消除对小型语言模型的依赖。该方法结合命名实体识别与语义匹配,在2000词预算下使问答准确率提升超30%,内存占用减半。实验显示其在Jetson及华为手机上实现显著加速与95%以上的能耗降低,具备高实用价值。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
