← 返回信息流
AI 资讯Hacker News·9 天前

探究提示词礼貌程度对大语言模型准确性的影响 (2025)

原标题:Investigating how prompt politeness affects LLM accuracy (2025)

速览

2025年的一项新研究深入探讨了用户提示词的礼貌程度如何影响大语言模型(LLM)的表现。实验结果表明,当用户以礼貌、尊重的语气提出请求时,模型生成的答案在准确性和逻辑性上均有显著提升。这一发现意味着,优化人机交互中的语言风格,无需改变模型参数即可有效提高AI输出的质量,为提升AI应用体验提供了新的实践指导。

AI 深度解读

语气即变量:探究提示词礼貌程度对大语言模型准确性的影响

背景

在自然语言处理领域,提示词工程(Prompt Engineering)已成为优化大语言模型(LLM)表现的关键手段。既往研究已证实,提示词的措辞、结构和细微差别会显著影响模型的性能。然而,关于“礼貌”与“语气”在提示词中的具体作用,学术界仍缺乏深入的系统性研究。

随着 LLM 在社会交互中的普及,人类与 AI 的互动模式逐渐从纯粹的任务导向转向更具社会属性的对话。人们普遍假设,如同人际交往一样,对 AI 使用礼貌用语可能会激发更积极、更高质量的响应。但这一假设在技术层面是否成立?新的模型架构是否已经内化了某种社会规范,从而对不同的语气做出差异化反应?

2025年10月6日提交至 arXiv 的论文《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》(注意你的语气:探究提示词礼貌程度如何影响 LLM 准确性)对此进行了实证调查。该研究由计算机科学计算与语言(cs.CL)领域的研究者完成,旨在量化不同礼貌层级对模型在多学科选择题中准确性的具体影响。

核心内容

本研究构建了一个受控实验环境,以评估提示词语气对 ChatGPT 4o 模型性能的影响。研究团队并未采用开放式的生成任务,而是选择了客观性较强的多项选择题,以消除主观评分带来的偏差。

1. 数据集构建 研究者创建了一个包含 50 个基础问题的数据集,这些问题横跨数学、科学和历史三个领域,确保了测试内容的多样性和认知难度的平衡。针对每一个基础问题,研究者利用 LLM 将其改写为五种不同的语气变体:

  • 非常礼貌 (Very Polite):使用极度谦恭、正式的敬语。
  • 礼貌 (Polite):使用标准的礼貌用语。
  • 中性 (Neutral):无情感色彩,直接陈述问题。
  • 粗鲁 (Rude):包含不尊重、命令式或带有轻微攻击性的措辞。
  • 非常粗鲁 (Very Rude):包含强烈的侮辱性、极度不耐烦或极具攻击性的语言。

由此,研究共生成了 250 个独特的提示词样本,用于后续评估。

2. 实验方法与评估 研究使用 ChatGPT 4o 作为测试对象,让模型在上述五种语气条件下回答对应的 50 道题目。为了验证结果的统计显著性,研究者采用了配对样本 t 检验(paired sample t-tests),对比不同语气条件下的准确率差异。

3. 实验结果 实验结果呈现出与直觉相悖的趋势:

  • 不礼貌提示词表现更佳:在所有测试条件下,粗鲁的提示词 consistently(一致地)优于礼貌的提示词。
  • 准确率数据
    • 非常礼貌 (Very Polite) 提示词下的模型准确率为 80.8%
    • 非常粗鲁 (Very Rude) 提示词下的模型准确率为 84.8%
  • 趋势分析:随着语气从“非常礼貌”向“非常粗鲁”过渡,模型的准确率呈现上升趋势。

这一发现与早期的一些研究结论不同,早期研究通常认为粗鲁或负面的提示词会导致模型输出质量下降。本研究暗示,较新的 LLM 架构(如 ChatGPT 4o)可能对语气变化做出了不同的响应机制,或者在训练数据中,直接、指令性强的语言(往往伴随较低的社会礼貌度)与高准确率的回答存在某种相关性。

关键要点

  • 语气显著影响性能:提示词的礼貌程度并非无关紧要,它直接影响了 LLM 在客观任务中的准确率,差异可达 4 个百分点。
  • “礼貌”并非最优解:在数学、科学和历史的多项选择题任务中,极致的礼貌(Very Polite)导致了最低的准确率(80.8%),而极致的粗鲁(Very Rude)带来了最高的准确率(84.8%)。
  • 新模型的行为异质性:与早期 LLM 研究不同,最新一代模型(如 ChatGPT 4o)并未表现出对粗鲁语气的负面反应,反而在指令性更强、社会约束更少的提示下表现更好。
  • 方法论的严谨性:通过控制变量(同一问题不同语气)并使用统计检验(配对样本 t 检验),研究排除了题目难度差异带来的干扰,确认了语气是造成准确率波动的主要原因。
  • 领域普适性:该效应在数学、科学和历史三个截然不同的学科中均被观察到,表明这可能是一个跨领域的普遍现象,而非特定学科的特例。

意义与影响

这项研究对提示词工程和人机交互设计具有多重深远影响:

1. 提示词工程的范式转变 传统的提示词优化往往侧重于清晰度、上下文丰富度和角色设定,而较少关注“社会情感”维度。本研究提示开发者,在追求高准确率的场景下,过度使用礼貌用语可能并非最佳策略。简洁、直接甚至带有命令口吻的提示词,可能在某些任务中更能激发模型的逻辑推理能力,减少模型因遵循“社交礼仪”而产生的冗余推理或过度谨慎。

2. 对“拟人化”交互的反思 许多用户倾向于以对待人类的方式对待 AI,认为礼貌能换来更好的服务。然而,数据表明,LLM 并非社会实体,其“礼貌”响应可能源于训练数据中礼貌文本与特定回答模式的统计关联,而非真正的理解或情感反馈。这一发现提醒我们,不应将人类社会的社交规范简单投射到 AI 交互中,否则可能导致效率低下。

3. 模型对齐与安全的新视角 如果模型在粗鲁提示下表现更好,这是否意味着模型在训练过程中吸收了“直接指令优于委婉请求”的模式?这引发了关于模型对齐(Alignment)的深层思考:我们是否无意中让模型学会了在缺乏社会约束时更“诚实”或更“直接”地输出答案?这也为研究模型幻觉(Hallucination)与语气之间的关系提供了新线索。

4. 未来研究方向 该研究主要聚焦于选择题,未来需要探索这种效应是否适用于开放式生成、创意写作或复杂推理任务。此外,不同语言文化背景下的礼貌定义差异巨大,跨文化的研究将有助于揭示语言结构与社会规范在模型行为中的具体权重。

总之,这篇论文不仅揭示了语气对 LLM 性能的具体量化影响,更打开了研究人机交互中“语用学”(Pragmatics)维度的大门,促使技术社区重新审视我们与 AI 对话的方式。

查看原文 →arxiv.org