技术博客arXiv cs.AI·1 天前

Mechanistic Personality Analysis of LLMs Steering Personality via Latent Feature Interventions

AI 深度解读

背景

随着大型语言模型（LLMs）能力的飞速提升，其生成文本展现出的类人特质日益显著。心理学中经典的 OCEAN 人格模型（开放性、尽责性、外倾性、宜人性、神经质）已被广泛用于评估和描述 LLM 生成文本的人格特征。然而，如何精确、可控地引导和调整 LLM 的人格特质，一直是 AI 对齐与个性化交互领域的核心挑战。

传统方法主要依赖于提示工程（Prompt Engineering）或微调（Fine-tuning）来塑造模型的人格表现。提示工程往往脆弱且难以精准控制，而微调则需要消耗大量计算资源，且容易损害模型原有的通用能力。为了突破这些表层干预的局限，研究者们开始将目光投向机制可解释性（Mechanistic Interpretability）领域，试图从模型内部的潜在特征出发，寻找更底层、更精准的人格控制机制。

核心内容

本文提出了一种基于机制可解释性的 LLM 人格分析方法，旨在通过直接干预模型的潜在特征来实现人格特质的可控转向。该方法的核心技术路线如下：

潜在方向的识别：研究不依赖于外部的提示或参数更新，而是深入模型内部。通过结合稀疏自编码器（SAEs）和对比激活分析（Contrastive Activation Analysis），在模型的残差流（Residual Stream）中，精准定位与目标 OCEAN 人格特质相对应的潜在特征方向。
加性转向向量的构建：在激活空间中，研究者形式化了一个加性转向向量（Additive Steering Vector）。该向量代表了在特定人格特质维度上的特征偏移量。
隐藏状态的干预：在模型推理过程中，将计算出的加性转向向量作为微小的偏移量，直接施加到模型的隐藏状态（Hidden States）上。这种干预方式能够在增强目标人格特质的同时，最大程度地保留模型原有的语言建模性能。
多目标优化策略：为了在人格表达与任务性能之间取得最佳平衡，研究探索了一种线性加权启发式（Linear Weighting Heuristic）结合网格搜索优化（Grid Search Optimization）的方法，以确定不同特征偏移的最优组合。

实验结果表明，这种在机制层面进行潜在特征干预的方法，能够在有效引导 LLM 人格特质的同时，维持其在标准基准测试上的高性能，展现了可控人格转向的巨大潜力。

关键要点

机制层面的干预：摒弃传统的 Prompt Engineering 和 Fine-tuning，转向基于机制可解释性的内部潜在特征直接干预。
SAEs 与对比激活分析：利用稀疏自编码器和对比激活分析，在残差流中挖掘并定位与 OCEAN 特质绑定的潜在特征方向。
加性转向向量：在激活空间中构建加性向量，通过对隐藏状态施加微小偏移来实现人格转向，兼顾了特质增强与性能保持。
线性加权与网格搜索：通过线性加权启发式与网格搜索优化，平衡人格表达强度与下游任务性能，寻找最优干预组合。
应用前景：为 LLM 的个性化对齐、安全可控的人格塑造提供了一种轻量且

查看原文 →arxiv.org

Mechanistic Personality Analysis of LLMs Steering Personality via Latent Feature Interventions

AI 深度解读

背景

核心内容

关键要点

相关推荐