技术博客arXiv cs.AI·3 小时前

基于结构化LLM流水线实现自动化人类谈判调解

原标题：Automated Mediator for Human Negotiation: Pre-Mediation via a Structured LLM Pipeline

速览

该研究引入了一种基于结构化LLM模块流水线的自动化人类谈判调解系统，旨在解决传统预调解成本高、资源有限的问题。系统通过对话、偏好预测、反馈级批判和结构化摘要等专用模块，将准备工作分解处理，避免了单一提示方法的局限。实验表明，该系统在信任度和达成互利协议的信心等短期自评指标上表现与人类专业调解员相当，且偏好推断误差显著降低。

AI 深度解读

自动化调解员用于人类谈判：通过结构化 LLM 管道进行预调解

背景

在涉及多方利益的人类谈判中，预调解（Pre-mediation）——即在直接的人类谈判开始之前的准备阶段——对于达成互利协议至关重要。然而，由于成本高昂、时间消耗巨大以及合格训练有素的调解员资源有限，这一关键阶段往往被省略或简化。

传统的单一大模型（Monolithic single-prompt）方法在处理复杂的谈判准备任务时存在局限性，难以同时兼顾推理、生成和评估的质量。随着大型语言模型（LLM）技术的发展，如何将其结构化地应用于复杂的社交互动场景，成为人工智能系统研究的一个前沿方向。

核心内容

本研究提出了一种用于人类谈判的自动化调解员（Automated Mediator），其核心实现方式是一个结构化的 LLM 模块管道。该系统旨在支持**整合性谈判（Integrative negotiation）**场景下的预调解工作。

1. 系统架构：结构化管道而非单体模型

为了克服单一提示词（Single-prompt）方法的不足，该系统将准备工作分解为四个专门的模块，并严格分离了推理（Inference）、**生成（Generation）和评估（Evaluation）**三个环节：

对话模块（Dialogue）：负责与用户进行初步交互，收集背景信息。
偏好预测模块（Preference Prediction）：基于对话内容预测各方的利益点和偏好。
响应级批判模块（Response-level Critique）：对生成的谈判策略或回应进行质量评估和批判。
结构化摘要模块（Structured Summarization）：将上述信息整合为结构化的谈判准备摘要。

2. “代理”术语的定义与系统特性

文中使用了“代理（Agent）”一词来指代上述每个模块，这遵循了常见的 LLM 系统术语习惯。但需要特别指出的是：

非自主性：这些组件并非自主智能体。
非对等交互：它们之间不进行点对点（Peer-to-peer）的交互。
固定序列：输出严格按照固定顺序从前一个模块传递到下一个模块。

这种设计被称为单一方设计（Single-party design），它模拟了当前人类调解员运行预调解的方式，并允许在争议的所有各方之间并行部署，从而支持系统的可扩展性。

3. 实验评估与结果

研究者在两个受控的人类受试者实验中评估了该系统，将基于 AI 的预调解与专业人类调解员在多议题谈判场景中的表现进行了对比。

短期自我报告指标：在信任调解员、对达成互利协议的信心等短期自我报告指标上，自动化调解员的表现与人类调解员大致相当。
偏好推断任务：在偏好推断任务中，自动化调解员实现了显著更低的错误率，其均方根误差（RMSE）比人类基线低了 36%。
提示词优化：第二项研究表明，通过针对性的提示词优化，可以将过度的肯定模式（Excessive affirmation patterns）从 36.6% 降低到 16.8%，这一水平与人类调解员的基线表现相匹配。

关键要点

解决痛点：自动化调解员旨在解决预调解阶段因成本、时间和专业资源稀缺而被忽视的问题。
模块化设计：通过结构化管道将复杂的预调解任务分解为对话、偏好预测、批判和摘要四个专门模块，分离了推理、生成和评估过程。
非自主交互：系统中的“代理”模块是固定序列执行的，不具备自主性或点对点交互能力，旨在模拟人类调解员的单向引导流程。
性能对比：
- 在主观感受（如信任度、信心）上，AI 表现与人类调解员相当。
- 在客观任务（偏好推断）上，AI 的 RMSE 误差比人类低 36%。
可优化性：通过调整提示词（Prompt），可以有效控制 AI 的过度肯定倾向，使其行为模式更接近人类专家。
可扩展性：单一方设计使得系统可以并行部署给争议各方，具备大规模应用的潜力。

意义与影响

这项研究证明了结构化 LLM 管道在提供可扩展、低努力的预调解支持方面的潜力。

民主化专业资源：通过提供与人类调解员在短期准备效果上可比拟的 AI 服务，使得更多缺乏专业调解资源的人群也能享受到高质量的谈判前准备支持。
技术范式验证：研究验证了将 LLM 任务分解为结构化管道（而非依赖单一复杂提示词）在处理复杂社交推理任务时的有效性，特别是在需要分离生成与评估环节的场景中。
未来应用前景：随着提示词工程的进一步优化（如减少过度肯定），这类自动化系统有望在商业谈判、法律纠纷解决、外交协调等领域得到广泛应用，特别是在需要快速、并行处理多方预调解需求的场景中。

查看原文 →arxiv.org