大模型自杀倾向检测的机制验证与因果分析
原标题:A Validation-Gated Mechanistic Account of Suicidality Detection in LLMs
速览
研究提出验证门控框架,旨在通过因果分析提升大模型内部特征解释的可信度。研究发现,Llama-3.1-8B-Instruct无法区分隐性自杀意图与普通痛苦,但能进行二元自杀检测。检测依赖于一个跨模型通用的低秩语义特征,该特征对自杀倾向具有特异性。结果表明,小模型虽能编码自杀信息,但仅大模型会据此采取行动。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
