技术博客arXiv cs.CL·3 小时前

Token级对比：Transformer与混合模型在状态追踪与复制任务上的表现差异

原标题：Comparing Transformers and Hybrid Models at the Token Level

速览

该研究利用Olmo 3和Olmo Hybrid的开源权重，在Token级别对比了纯Transformer与混合语言模型的性能差异。结果显示，混合模型凭借循环层在开放类内容词和实体追踪任务上损失更低，体现了其在语义状态追踪上的理论优势。然而，在依赖n-gram复制的重复片段及需选择闭合分隔符的括号匹配任务中，Transformer表现更佳。这一发现为混合架构的预训练诊断提供了细粒度的评估依据。

AI 深度解读

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）

查看原文 →arxiv.org

Token级对比：Transformer与混合模型在状态追踪与复制任务上的表现差异

速览

AI 深度解读

相关推荐