← 返回信息流
技术博客arXiv cs.AI·1 天前

The Complexity Ceiling Benchmark: A Multi-Domain Evaluation of Sequential Reasoning Under Depth Scaling

AI 深度解读

背景

随着大语言模型(LLM)在各类基准测试中展现出惊人的性能,评估其真实推理能力成为学界关注的焦点。然而,现有的评估往往将“语义理解的难度”与“推理链的长度”混为一谈。当模型在多步推理中出错

查看原文 →arxiv.org