SoCRATES:面向多领域与社会认知差异的主动LLM调解可靠评估
原标题:SoCRATES: Towards Reliable Automated Evaluation of Proactive LLM Mediation across Domains and Socio-cognitive Variations
速览
研究提出SoCRATES基准,用于评估主动LLM调解器在真实多领域场景中的表现。该基准通过智能体管道构建场景,并针对五种社会认知适应轴进行探测。评估结果显示,即使最强模型也仅能缩小约三分之一的未调解共识差距,凸显社会适应性的重要性。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
