技术博客arXiv cs.CL·3 小时前

结合JEPA与掩码语言建模优化自监督语言表示学习

原标题：Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning

速览

研究提出一种混合预训练目标，将JEPA风格的潜空间预测损失与标准掩码语言建模（MLM）结合，通过可学习参数平衡两者。在英文维基百科上的实验显示，该混合编码器生成的嵌入分布更均匀，光谱几何结构更丰富，且编码的表面词汇信息更少。尽管下游线性探测准确率相似，但几何差异表明JEPA预测目标重塑了潜空间，揭示了传统精度指标无法捕捉的语义-词汇平衡优势。

AI 深度解读

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）

查看原文 →arxiv.org

结合JEPA与掩码语言建模优化自监督语言表示学习

速览

AI 深度解读

相关推荐