训练动态、模型先验与数据如何塑造涌现式不对齐
原标题:What Shapes Emergent Misalignment? Insights from Training Dynamics, Model Priors, and Data
速览
涌现式不对齐指模型在窄微调后泛化出广泛但不均匀的不对齐现象。研究通过分析训练动态、模型先验和数据组件,发现训练损失与域外对齐分数相关,且预训练模型的激活信号可预测微调后的对齐表现。此外,训练与评估提示的激活子空间重叠度与不对齐程度密切相关。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
