EduArt:艺术史知识与视觉推理的AI基准测试
速览
EduArt是由arXiv论文引入的教育级艺术史基准,聚焦多模态大语言模型的艺术历史知识和视觉推理能力。基准包含871道来自意大利高中和美国AP艺术史考试的人工编写的真实题目,覆盖多种语言和七种格式。 通过对六大提供商十二款模型的评估,分析了格式、语言、图像存在性以及模型本身对准确性的影响。 这些发现显示,单格式基准高估了模型能力,揭示了艺术史知识与部署能力是独立能力,为多模态大模型在艺术史研究中的负责任使用提供了基础。
AI 深度解读
背景
大型语言模型在通用基准测试中已接近天花板性能,但这些聚合指标无法揭示模型在单一学科内的具体行为。现有针对艺术的评估依赖合成问题,且很少报告项目层面的属性。本文提出EduArt,这是一个用于评估艺术历史知识和视觉推理的多模态大型语言模型的教学水平基准。EduArt包含来自意大利中学课外练习和美国高级先修艺术历史考试的871个由人类编写的题目,涵盖两种语言和七种格式,从多项选择到题内单词摆放以及错误识别。
核心内容
EduArt基准包含871个人类编写的题目,来源于意大利的二级学校练习和美国高级先修艺术历史考试。这些题目分布在两种语言和七种不同格式中,包括多项选择题、题内单词摆放以及错误识别等形式。共有来自六家提供商家族的12个模型被纳入评估,评估在默认回答仅条件和动机条件(要求书面解释)下进行。研究人员使用经典测试理论和逻辑回归来表征模型,隔离了格式、语言、图像存在以及模型本身的影响。
基准表现出强大的心理测量属性:平均区分度为0.514,其中82.3%的项目被归类为良好区分者。尽管如此,多项选择准确率在六款模型上接近饱和,表明仅凭识别格式无法区分前沿模型。格式是准确率的一个强大独立预测因子:超过94%多项选择准确率的模型,在开放完成任务上准确率降至23.9%(Claude Opus 4.6),在错误识别任务上降至6.2%(Claude Sonnet 4.6)。动机条件对准确率的影响呈以负面为主且与家族相关的方向。研究指出,这些解离现象表明,艺术历史知识本身以及将该知识应用于实际任务的能力是两种独立的特性,而单一格式的基准会高估模型能够可靠执行的能力。构建这种能力画像是推动多模态大型语言模型在艺术历史学术领域 responsibly 使用的前提,因为该领域需要模型生成和操作内容,而非仅从固定选项中选择。
关键要点
- EduArt是首个教学水平的多模态艺术历史基准,包含871个真实人类编写的题目(意大利中学练习+美国AP考试),覆盖两种语言与七种格式。
- 12个模型测试显示,多项选择准确率在六款模型上接近天花板,无法区分前沿模型;格式显著影响表现(多项选择>94%降至开放完成23.9%、错误识别6.2%)。
- 基准平均区分度0.514,82.3%项目为良好区分者,整体心理测量性质强。
- 动机条件(要求书面解释)主要产生负面效果,且与模型家族相关。
- 艺术历史知识与应用能力是独立特性,单一格式基准会高估模型可靠能力。
意义与影响
EduArt为艺术历史相关学术研究提供了可靠的性能画像,这对于负责任地在艺术史学领域部署多模态大型语言模型至关重要——因为任务要求模型不仅选择答案,更要生成、推理和操作专业内容。现有基准的局限性在于依赖合成数据和单一格式,这会夸大模型能力。EduArt通过真实教育考试题目揭示了模型在开放生成和错误检测等高要求任务上的实际局限性,促使学术界和行业采用更全面、任务导向的评估框架。未来,此类基准将帮助研究者识别模型在特定学科内的真实能力边界,避免在艺术史研究或教育场景中过度依赖模型,降低潜在风险,并推动多模态模型在真实学术工作流中的安全与可信应用。
