← 返回信息流
技术博客arXiv cs.AI·4 小时前

重复共享访问促成模型顿悟,但编辑传播依赖细粒度可寻址内存

原标题:Repeated Shared Access Enables Grokking, but Edit Propagation Depends on a Fine-Grained Addressable Memory

速览

该研究通过合成知识图谱问答实验,对比了四种架构,发现重复的共享访问而非特定架构是模型实现“顿悟”的关键。然而,事实编辑的传播能力取决于模型是否具备细粒度的可寻址内存,以便前向计算写入并后续读取。这一发现将学习能力和编辑能力解耦,表明循环递归仅提供部分编辑支持。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org