技术博客arXiv cs.CL·3 小时前

PRIG方法：精准定位大模型提示词中的模糊性

原标题：Localizing Prompt Ambiguity in Large Language Models with Probe-Targeted Attribution

速览

针对大语言模型中提示词模糊性难以定位的问题，研究提出PRIG梯度归因方法。该方法训练线性探针区分清晰与模糊提示，并将探针分数归因于残差流中的早期词元表示。实验表明，PRIG在合成及人工基准上均显著优于现有基线，甚至超越GPT-5.4，证明可通过中间表示而非输出层来定位提示词的潜在属性。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）