Mechanistic Personality Analysis of LLMs Steering Personality via Latent Feature Interventions
AI 深度解读
背景
随着大型语言模型(LLMs)能力的飞速提升,其生成文本展现出的类人特质日益显著。心理学中经典的 OCEAN 人格模型(开放性、尽责性、外倾性、宜人性、神经质)已被广泛用于评估和描述 LLM 生成文本的人格特征。然而,如何精确、可控地引导和调整 LLM 的人格特质,一直是 AI 对齐与个性化交互领域的核心挑战。
传统方法主要依赖于提示工程(Prompt Engineering)或微调(Fine-tuning)来塑造模型的人格表现。提示工程往往脆弱且难以精准控制,而微调则需要消耗大量计算资源,且容易损害模型原有的通用能力。为了突破这些表层干预的局限,研究者们开始将目光投向机制可解释性(Mechanistic Interpretability)领域,试图从模型内部的潜在特征出发,寻找更底层、更精准的人格控制机制。
核心内容
本文提出了一种基于机制可解释性的 LLM 人格分析方法,旨在通过直接干预模型的潜在特征来实现人格特质的可控转向。该方法的核心技术路线如下:
- 潜在方向的识别:研究不依赖于外部的提示或参数更新,而是深入模型内部。通过结合稀疏自编码器(SAEs)和对比激活分析(Contrastive Activation Analysis),在模型的残差流(Residual Stream)中,精准定位与目标 OCEAN 人格特质相对应的潜在特征方向。
- 加性转向向量的构建:在激活空间中,研究者形式化了一个加性转向向量(Additive Steering Vector)。该向量代表了在特定人格特质维度上的特征偏移量。
- 隐藏状态的干预:在模型推理过程中,将计算出的加性转向向量作为微小的偏移量,直接施加到模型的隐藏状态(Hidden States)上。这种干预方式能够在增强目标人格特质的同时,最大程度地保留模型原有的语言建模性能。
- 多目标优化策略:为了在人格表达与任务性能之间取得最佳平衡,研究探索了一种线性加权启发式(Linear Weighting Heuristic)结合网格搜索优化(Grid Search Optimization)的方法,以确定不同特征偏移的最优组合。
实验结果表明,这种在机制层面进行潜在特征干预的方法,能够在有效引导 LLM 人格特质的同时,维持其在标准基准测试上的高性能,展现了可控人格转向的巨大潜力。
关键要点
- 机制层面的干预:摒弃传统的 Prompt Engineering 和 Fine-tuning,转向基于机制可解释性的内部潜在特征直接干预。
- SAEs 与对比激活分析:利用稀疏自编码器和对比激活分析,在残差流中挖掘并定位与 OCEAN 特质绑定的潜在特征方向。
- 加性转向向量:在激活空间中构建加性向量,通过对隐藏状态施加微小偏移来实现人格转向,兼顾了特质增强与性能保持。
- 线性加权与网格搜索:通过线性加权启发式与网格搜索优化,平衡人格表达强度与下游任务性能,寻找最优干预组合。
- 应用前景:为 LLM 的个性化对齐、安全可控的人格塑造提供了一种轻量且
查看原文 →arxiv.org
