Aristotelian Virtue Profiling of LLMs through Ethical Dilemmas
AI 深度解读
背景
随着大语言模型(LLM)在现实世界中的广泛部署,其伦理决策能力成为关注的焦点。传统的 LLM 伦理评估往往陷入“对错二元论”的窠臼,即试图为每个伦理问题寻找单一的标准答案。然而,现实中的伦理困境往往涉及复杂的价值权衡:一个回答可能在“诚实”上得分很高,却在“克制”上有所欠缺;另一个回答可能彰显了“勇敢”,却牺牲了“正义”。
为了更细腻地刻画 LLM 在面临伦理权衡时的价值倾向,研究引入了亚里士多德美德伦理学的视角。与单纯判断行为对错不同,美德伦理学关注行为者的品格特质。基于此,研究者开发了 VirtueMap 框架,旨在不再追问“哪个回答绝对正确”,而是探究“不同回答分别彰显了何种美德优先级”,从而为 LLM 绘制出一幅多维度的“美德画像”。
核心内容
VirtueMap 框架的核心在于将伦理评估从“单一答案判定”转化为“多维美德排序”。具体实施流程如下:
-
困境与回答设计:研究选取了 7 个具有普适性的伦理困境,这些困境经过刻意设计,排除了致命、政治和宗教等极端或敏感因素。针对每个困境,提供 5 个不同的备选回答,这些回答均具有某种程度的合理性,但体现了不同的价值侧重。
-
美德维度定义:框架基于亚里士多德美德伦理学,定义了 5 个核心美德维度:实践智慧、正义、诚实、勇敢和克制。
-
构建操作真值:为了评估 LLM 的排序是否符合人类共识,研究者首先针对“每个困境在特定美德维度下,5 个回答应如何排序(从最体现该美德到最不体现)”提出了预设排序。随后,他们收集了超过 100 名人类受访者对每个预设排序的评估。只有当至少 95% 的受访者确认该排序时,该排序才会被保留作为“操作性的基本真值”。
-
评分机制:LLM 和人类受访者需要对 5 个回答进行排序。这些排序将通过“归一化 Borda 对齐”算法与上述保留下来的基本真值进行比对和评分,从而得出该模型或个体在 5 个美德维度上的量化画像。
-
**LLM
