美团LongCat开源General 365:树立大模型通用推理评测新标尺
速览
美团LongCat团队正式发布General 365,这是一个专注于K-12知识范围内通用逻辑推理的评测基准。该基准通过365道原创题目和八大挑战维度,解耦了专业知识与推理能力,旨在更真实地评估大模型在日常场景下的逻辑水平。实测显示,即使是地表最强的Gemini 3 Pro准确率也仅为62.8%,绝大多数模型未能及格,暴露出当前模型在语义干扰和全局规划上的显著不足。这一基准的发布为衡量大模型从“做题机器”向真正智能进化提供了新的标尺。
AI 深度解读
背景
当前大语言模型在 AIME、IMO 等高难度数学与逻辑竞赛中表现优异,甚至逼近满分,这给公众造成了一种模型已具备“人类最强大脑”的错觉。然而,这种高分往往源于对训练语料的暴力记忆与模式匹配,而非真正的逻辑推演能力。
一个典型的反例是,当被问及“离洗车店只有 50 米,开车去还是走路去”这类涉及基本常识与简单逻辑的问题时,许多号称推理满分的模型仍会一本正经地规划导航路线。这揭示了当前评测体系的死穴:模型擅长记忆复杂公式,却缺乏通用的逻辑常识。
现有的通用推理基准(如 BBH、BBEH)面临两大瓶颈:一是任务模板化导致逻辑同质化严重;二是性能饱和导致区分度断崖式下降。为了打破这一局限,美团 LongCat 团队发布了 General 365 基准,旨在将评测焦点从“学科推理”拓展至“通用推理”,清晰勾勒当前大模型在通用逻辑推理上的真实能力边界。
核心内容
General 365 是一个专注于评估大模型在日常场景下通用推理水平的基准测试。其设计核心在于显式解耦推理能力与专业知识,将背景知识严格限定在 K-12(中小学)水平,从而纯粹衡量逻辑推理能力,而非知识检索能力。
1. 基准设计与特征 General 365 包含 365 道原创种子题目及 1095 个扩展变体,共 1460 道高质量题目。其核心特征包括:
- 高多样性:覆盖八大挑战类型,避免重复特征与死记硬背。
- 高挑战性:即便是目前地表最强的 Gemini 3 Pro,准确率也仅为 62.8%,绝大多数模型未能触及 60 分的及格线。
- 严格质检:全量题目经过人工审核,涵盖题目设计、推理轨迹与最终答案。
- 精准评分:采用混合规则与模型打分方法,人工抽样验证,评分准确率达 99.6%。
2. 八大推理维度 为了量化通用推理能力,General 365 将挑战拆解为八个维度,每道题至少对应其一:
- 复杂约束:多条件交织下的全局一致性维护。
- 分支与枚举:解空间的系统性遍历与边界覆盖。
- 时空推理:空间关系与时间序列的动态推演。
- 递归与回溯:假设—验证—推翻的迭代纠错。
- 语义干扰:跨越认知陷阱,严格遵循题设规则。
- 隐式信息:从碎片线索推断底层逻辑结构。
- 最优策略:多路径方案中的效用权衡与规划。
- 概率与不确定性:不完全信息下的概率推断。
数据显示,近 70% 的题目具备两个或以上类别标签,这种复合型设计更贴近真实世界的逻辑复杂度。其中,“复杂约束类”占比最大,“概率与不确定性类”亦超过 20 道题。
3. 多样性验证 为确保题目质量,团队从语义分布和逻辑独立性两个维度进行了验证:
- 语义分布:t-SNE 可视化显示,General 365 的题目嵌入分布均匀分散,而 BBH 和 BBEH 出现明显聚集,暴露了后者的逻辑冗余。
- 逻辑独立性:使用 Gemini 3 Pro 对语义相近题目对进行推理路径相似度评分(0-5 分),General 365 平均仅得 2.16 分,远低于 BBH 和 BBEH。这意味着模型无法通过“背模板”蒙混过关。
4. 实验结果与发现 LongCat 团队对 26 款主流大模型进行了全面测试,主要发现如下:
- 整体表现:Gemini 3 Pro 以 62.8% 的成绩领跑,仅两款模型“及格”。尽管非推理模型整体略逊,但 Qwen 3 Max Instruct 等个别模型表现亮眼。
- 能力洼地:“语义干扰”与“最优策略”是主要失分点,模型在这两项上的得分比整体准确率低约 10 个百分点。这暴露了模型易受干扰信息带偏,且缺乏多步全局规划能力。
- 效率分化:Gemini 3 Pro 仅用约 14k tokens 即拿下最高分,而其他取得相近准确率的模型,输出长度普遍暴涨至 25k-30k tokens。
- 难度含金量:与 BBH/BBEH 相比,各大模型在 General 365 上的准确率大幅下降(例如 GPT-5-Thinking 从 92.0% 降至 58.6%)。同时,模型在 General 365 上的平均输出长度显著增加,证实了难度来源于更深的逻辑链条,而非无意义的字数堆砌。
关键要点
- 评测范式转移:General 365 将大模型评测从依赖专业知识的“学科推理”转向限定 K-12 知识的“通用推理”,旨在剥离知识储备,纯粹评估逻辑推演能力。
- 现有基准缺陷:现有的 BBH 和 BBEH 等基准存在任务模板化、逻辑同质化及性能饱和问题,导致区分度下降,无法有效反映模型真实的通用推理水平。
- 题目设计严谨:基准包含 1460 道题目,通过人工原创、难度过滤、多样性扩充及严格质检,确保题目具备高多样性和高挑战性。
- 八大维度覆盖:推理能力被拆解为复杂约束、分支枚举、时空推理、递归回溯、语义干扰、隐式信息、最优策略、概率与不确定性八个维度,其中近 70% 题目为复合型任务。
- 模型能力真相:实测显示,即使是顶级模型 Gemini 3 Pro 准确率也仅 62.8%,多数模型不及格。模型在“语义干扰”和“最优策略”上表现最差,反映出易受干扰及规划能力不足。
- 效率与难度验证:Gemini 3 Pro 在保持最高准确率的同时,Token 消耗量(约 14k)显著低于其他模型(25k-30k)。此外,模型在 General 365 上准确率下降但输出长度增加,证明了其逻辑深度的提升。
意义与影响
General 365 的发布标志着大模型评测进入“深水区”。它不再仅仅关注模型在特定领域(如数学、编程)的记忆与匹配能力,而是聚焦于模型在真实世界通用场景下的逻辑鲁棒性。
这一基准揭示了当前大模型虽然能解决高难度竞赛题,但在处理涉及常识、多步规划及抗干扰能力的简单逻辑问题时仍存在显著短板。这种“高分低能”的现象表明,现有的高分可能更多依赖于数据拟合而非真正的智能泛化。
通过提供一把校准过的“标尺”,General 365 迫使研究者和开发者正视模型在通用推理上的不足,推动模型从“做题机器”向具备真正逻辑理解能力的“智能体”进化。美团 LongCat 团队开源该基准,旨在邀请社区共同探索大模型逻辑进化的下一个奇点,为构建更可靠、更通用的 AI 系统奠定基础。
