技术博客arXiv cs.AI·3 小时前

SoCRATES：面向多领域与社会认知差异的主动LLM调解可靠评估

原标题：SoCRATES: Towards Reliable Automated Evaluation of Proactive LLM Mediation across Domains and Socio-cognitive Variations

速览

研究提出SoCRATES基准，用于评估主动LLM调解器在真实多领域场景中的表现。该基准通过智能体管道构建场景，并针对五种社会认知适应轴进行探测。评估结果显示，即使最强模型也仅能缩小约三分之一的未调解共识差距，凸显社会适应性的重要性。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）