AI 资讯Hacker News·2 小时前

各大主流大模型在政治立场上的表现

原标题：Where every major LLM stands politically

速览

该资讯探讨了当前主流大型语言模型（LLM）在政治倾向上的表现。通过分析不同模型在政治议题上的输出，揭示了其背后的训练数据偏差或对齐策略差异。这对于理解AI系统的价值观对齐及潜在偏见具有重要意义。

AI 深度解读

AI政治倾向全景图：各大主流大模型的政治光谱实测

背景

在当前的数字生态中，数百万用户开始依赖大型语言模型（LLM）来获取新闻解读、解决争论，甚至寻求投票建议。然而，模型在回答这些问题时，其内在的“政治倾向”往往在潜移默化中塑造着最终输出的答案。这种倾向并非总是清晰可见，且不同模型的偏移程度和方式存在显著差异。

为了揭示这一黑盒，一项名为“Political bias in AI”的研究项目对各大主流AI模型进行了系统性测试。该项目的核心逻辑在于：通过关闭网络搜索功能，排除外部实时信息的干扰，直接测量模型本身在训练权重中形成的政治立场。研究团队向每个模型提出了一系列关于政治、经济、言论自由和社会议题的“高敏感度”问题，并通过多次重复运行，绘制出每个模型的回答分布云图。这不仅是一份关于模型立场的地图，更是一次对AI价值观对齐（Value Alignment）现状的深度体检。

核心内容

该研究构建了一个二维政治光谱坐标系，以量化评估各大主流LLM的政治倾向。

1. 坐标系定义

经济轴（横向）：从左（左翼/进步主义）到右（右翼/保守主义）。
社会轴（纵向）：从下（自由意志主义/Libertarian）到上（威权主义/Authoritarian）。
中性点：坐标系的中心代表政治中立。模型的回答分布越靠近中心，表明其立场越中立；分布越偏离中心，表明其倾向性越强。

2. 测试方法论

封闭环境测试：所有测试均在关闭 Web Search（网络搜索）的情况下进行，确保结果反映的是模型内部权重所体现的偏见，而非从互联网抓取的外部信息。
重复运行与云图呈现：每个模型针对同一组开放性问题被多次询问。结果不以单一数据点呈现，而是以“云图”形式展示其回答的完整分布范围。这种可视化方式揭示了模型回答的稳定性及波动性。
中立分类器评分：使用一个廉价的、中立的分类器对每个原始回答进行签名立场（signed stance）、犹豫程度、拒绝类型及负载语言（loaded language）的分析。坐标点为加权平均值，并附带95%的置信区间。
自我认知对比：研究还记录了模型在被直接询问“你的政治倾向是什么”时的自我陈述（空心标记），并将其与实际测量出的立场（实心标记）进行对比。若模型回避自我定位，则被记为声称中立。

3. 数据来源与参考系

模型在地图上的位置参照了现实世界的人物或立场，这些参考位置来自 CHES 2024 和 V-Dem 专家调查，而非研究团队的主观判断。
研究区分了“事实性”与“价值观基础”的问题，并记录了模型的拒绝回答情况，将其作为数据的一部分而非缺失值处理。

4. 多维度扩展测试

国家视角：通过“边界测试”（Border Test）开启搜索功能，观察不同地理位置和语言环境如何改变模型的检索结果和回答。
对立比较：将任意两个模型进行头对头比较，分析其性格差异和分歧点。
用户匹配：提供测试题，让用户查看自己与哪个模型的政治立场最接近。

关键要点

普遍存在的倾向性：绝大多数主流模型都表现出某种程度的政治倾向，尽管程度不一，且不像人们预期的那样界限分明。它们大多倾向于同一方向，但偏移幅度存在差异。
稳定性与波动性：通过“云图”可以看出，有些模型的回答非常稳定（云团紧凑），而有些则波动较大（云团分散）。研究量化了每个模型“坚持立场”的稳固程度以及“偏离”的距离。
自我认知与实测的偏差：许多模型在被问及自身倾向时声称中立（空心标记），但其实际回答分布（实心标记）却显示出明显的偏移。这种“言行不一”揭示了模型在价值观对齐上的复杂性。
非党派性的中立描述：该研究刻意避免使用美国政治中常见的“红蓝”配色，旨在提供描述性（descriptive）而非规范性（prescriptive）的分析。它不评判哪种立场是“正确”的，仅客观报告模型的表现。
权重而非网络：核心结论是，AI的政治偏见主要源于模型训练权重，而非实时网络搜索。关闭搜索后的测试证明了模型内部存在固有的立场偏好。
拒绝回答也是数据：模型选择拒绝回答某些问题（Refusal），被研究团队视为一种数据点，用于分析模型的审查机制和边界设定。

意义与影响

1. 透明度与问责制 随着AI深入公共话语空间，理解模型背后的价值观至关重要。该研究通过公开原始数据、评分权重和方法论，为AI行业的透明度树立了新标准。它迫使开发者和用户正视AI并非完全客观中立的事实。

2. 用户决策参考 对于依赖AI进行新闻摘要、辩论辅助或决策支持的用户而言，了解不同模型的政治光谱有助于选择更适合的工具。例如，寻求多元观点的用户可能需要结合使用立场不同的模型，以避免信息茧房。

3. 技术改进方向 研究揭示了模型在“自我认知”与“实际行为”之间的差距，这为AI对齐技术（Alignment）提供了具体的改进方向。开发者需要解决模型声称中立但实际偏颇的问题，以提高用户信任度。

4. 全球视角的补充 通过引入不同国家、语言和边界测试，该研究强调了AI偏见的地域性和文化特异性。这提醒我们，所谓的“中立”往往是特定文化背景下的产物，全球AI治理需要更加多元的视角。

5. 学术与政策价值 该研究提供的开放问题库（Open Question Bank）和可下载数据，为学术界和政策制定者提供了宝贵的资源，有助于深入探讨AI在社会治理、舆论引导中的角色及其潜在风险。

查看原文 →trakkr.ai