技术博客arXiv cs.AI·1 天前

The Complexity Ceiling Benchmark: A Multi-Domain Evaluation of Sequential Reasoning Under Depth Scaling

AI 深度解读

随着大语言模型（LLM）在各类基准测试中展现出惊人的性能，评估其真实推理能力成为学界关注的焦点。然而，现有的评估往往将“语义理解的难度”与“推理链的长度”混为一谈。当模型在多步推理中出错