The Complexity Ceiling Benchmark: A Multi-Domain Evaluation of Sequential Reasoning Under Depth Scaling
AI 深度解读
背景
随着大语言模型(LLM)在各类基准测试中展现出惊人的性能,评估其真实推理能力成为学界关注的焦点。然而,现有的评估往往将“语义理解的难度”与“推理链的长度”混为一谈。当模型在多步推理中出错
查看原文 →arxiv.org
随着大语言模型(LLM)在各类基准测试中展现出惊人的性能,评估其真实推理能力成为学界关注的焦点。然而,现有的评估往往将“语义理解的难度”与“推理链的长度”混为一谈。当模型在多步推理中出错