← 返回信息流
技术博客arXiv cs.AI·3 小时前

SoCRATES:面向多领域与社会认知差异的主动LLM调解可靠评估

原标题:SoCRATES: Towards Reliable Automated Evaluation of Proactive LLM Mediation across Domains and Socio-cognitive Variations

速览

研究提出SoCRATES基准,用于评估主动LLM调解器在真实多领域场景中的表现。该基准通过智能体管道构建场景,并针对五种社会认知适应轴进行探测。评估结果显示,即使最强模型也仅能缩小约三分之一的未调解共识差距,凸显社会适应性的重要性。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org