技术博客arXiv cs.CL·4 小时前

大模型自杀倾向检测的机制验证与因果分析

原标题：A Validation-Gated Mechanistic Account of Suicidality Detection in LLMs

速览

研究提出验证门控框架，旨在通过因果分析提升大模型内部特征解释的可信度。研究发现，Llama-3.1-8B-Instruct无法区分隐性自杀意图与普通痛苦，但能进行二元自杀检测。检测依赖于一个跨模型通用的低秩语义特征，该特征对自杀倾向具有特异性。结果表明，小模型虽能编码自杀信息，但仅大模型会据此采取行动。

AI 深度解读

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）

查看原文 →arxiv.org

大模型自杀倾向检测的机制验证与因果分析

速览

AI 深度解读

相关推荐