Token级对比:Transformer与混合模型在状态追踪与复制任务上的表现差异
原标题:Comparing Transformers and Hybrid Models at the Token Level
速览
该研究利用Olmo 3和Olmo Hybrid的开源权重,在Token级别对比了纯Transformer与混合语言模型的性能差异。结果显示,混合模型凭借循环层在开放类内容词和实体追踪任务上损失更低,体现了其在语义状态追踪上的理论优势。然而,在依赖n-gram复制的重复片段及需选择闭合分隔符的括号匹配任务中,Transformer表现更佳。这一发现为混合架构的预训练诊断提供了细粒度的评估依据。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
