技术博客arXiv cs.AI·1 天前

Aristotelian Virtue Profiling of LLMs through Ethical Dilemmas

AI 深度解读

背景

随着大语言模型（LLM）在现实世界中的广泛部署，其伦理决策能力成为关注的焦点。传统的 LLM 伦理评估往往陷入“对错二元论”的窠臼，即试图为每个伦理问题寻找单一的标准答案。然而，现实中的伦理困境往往涉及复杂的价值权衡：一个回答可能在“诚实”上得分很高，却在“克制”上有所欠缺；另一个回答可能彰显了“勇敢”，却牺牲了“正义”。

为了更细腻地刻画 LLM 在面临伦理权衡时的价值倾向，研究引入了亚里士多德美德伦理学的视角。与单纯判断行为对错不同，美德伦理学关注行为者的品格特质。基于此，研究者开发了 VirtueMap 框架，旨在不再追问“哪个回答绝对正确”，而是探究“不同回答分别彰显了何种美德优先级”，从而为 LLM 绘制出一幅多维度的“美德画像”。

核心内容

VirtueMap 框架的核心在于将伦理评估从“单一答案判定”转化为“多维美德排序”。具体实施流程如下：

困境与回答设计：研究选取了 7 个具有普适性的伦理困境，这些困境经过刻意设计，排除了致命、政治和宗教等极端或敏感因素。针对每个困境，提供 5 个不同的备选回答，这些回答均具有某种程度的合理性，但体现了不同的价值侧重。
美德维度定义：框架基于亚里士多德美德伦理学，定义了 5 个核心美德维度：实践智慧、正义、诚实、勇敢和克制。
构建操作真值：为了评估 LLM 的排序是否符合人类共识，研究者首先针对“每个困境在特定美德维度下，5 个回答应如何排序（从最体现该美德到最不体现）”提出了预设排序。随后，他们收集了超过 100 名人类受访者对每个预设排序的评估。只有当至少 95% 的受访者确认该排序时，该排序才会被保留作为“操作性的基本真值”。
评分机制：LLM 和人类受访者需要对 5 个回答进行排序。这些排序将通过“归一化 Borda 对齐”算法与上述保留下来的基本真值进行比对和评分，从而得出该模型或个体在 5 个美德维度上的量化画像。
**LLM

查看原文 →arxiv.org

Aristotelian Virtue Profiling of LLMs through Ethical Dilemmas

AI 深度解读

背景

核心内容

相关推荐