技术博客美团技术团队·2 小时前

美团LongCat开源General 365：树立大模型通用推理评测新标尺

原标题：美团 LongCat 开源 General 365：树立推理评测新标尺

速览

美团LongCat团队正式发布General 365，这是一个专注于K-12知识范围内通用逻辑推理的评测基准。该基准通过365道原创题目和八大挑战维度，解耦了专业知识与推理能力，旨在更真实地评估大模型在日常场景下的逻辑水平。实测显示，即使是地表最强的Gemini 3 Pro准确率也仅为62.8%，绝大多数模型未能及格，暴露出当前模型在语义干扰和全局规划上的显著不足。这一基准的发布为衡量大模型从“做题机器”向真正智能进化提供了新的标尺。

AI 深度解读

背景

当前大语言模型在 AIME、IMO 等高难度数学与逻辑竞赛中表现优异，甚至逼近满分，这给公众造成了一种模型已具备“人类最强大脑”的错觉。然而，这种高分往往源于对训练语料的暴力记忆与模式匹配，而非真正的逻辑推演能力。

一个典型的反例是，当被问及“离洗车店只有 50 米，开车去还是走路去”这类涉及基本常识与简单逻辑的问题时，许多号称推理满分的模型仍会一本正经地规划导航路线。这揭示了当前评测体系的死穴：模型擅长记忆复杂公式，却缺乏通用的逻辑常识。

现有的通用推理基准（如 BBH、BBEH）面临两大瓶颈：一是任务模板化导致逻辑同质化严重；二是性能饱和导致区分度断崖式下降。为了打破这一局限，美团 LongCat 团队发布了 General 365 基准，旨在将评测焦点从“学科推理”拓展至“通用推理”，清晰勾勒当前大模型在通用逻辑推理上的真实能力边界。

核心内容

General 365 是一个专注于评估大模型在日常场景下通用推理水平的基准测试。其设计核心在于显式解耦推理能力与专业知识，将背景知识严格限定在 K-12（中小学）水平，从而纯粹衡量逻辑推理能力，而非知识检索能力。

1. 基准设计与特征 General 365 包含 365 道原创种子题目及 1095 个扩展变体，共 1460 道高质量题目。其核心特征包括：

高多样性：覆盖八大挑战类型，避免重复特征与死记硬背。
高挑战性：即便是目前地表最强的 Gemini 3 Pro，准确率也仅为 62.8%，绝大多数模型未能触及 60 分的及格线。
严格质检：全量题目经过人工审核，涵盖题目设计、推理轨迹与最终答案。
精准评分：采用混合规则与模型打分方法，人工抽样验证，评分准确率达 99.6%。

2. 八大推理维度 为了量化通用推理能力，General 365 将挑战拆解为八个维度，每道题至少对应其一：

复杂约束：多条件交织下的全局一致性维护。
分支与枚举：解空间的系统性遍历与边界覆盖。
时空推理：空间关系与时间序列的动态推演。
递归与回溯：假设—验证—推翻的迭代纠错。
语义干扰：跨越认知陷阱，严格遵循题设规则。
隐式信息：从碎片线索推断底层逻辑结构。
最优策略：多路径方案中的效用权衡与规划。
概率与不确定性：不完全信息下的概率推断。

数据显示，近 70% 的题目具备两个或以上类别标签，这种复合型设计更贴近真实世界的逻辑复杂度。其中，“复杂约束类”占比最大，“概率与不确定性类”亦超过 20 道题。

3. 多样性验证 为确保题目质量，团队从语义分布和逻辑独立性两个维度进行了验证：

语义分布：t-SNE 可视化显示，General 365 的题目嵌入分布均匀分散，而 BBH 和 BBEH 出现明显聚集，暴露了后者的逻辑冗余。
逻辑独立性：使用 Gemini 3 Pro 对语义相近题目对进行推理路径相似度评分（0-5 分），General 365 平均仅得 2.16 分，远低于 BBH 和 BBEH。这意味着模型无法通过“背模板”蒙混过关。

4. 实验结果与发现 LongCat 团队对 26 款主流大模型进行了全面测试，主要发现如下：

整体表现：Gemini 3 Pro 以 62.8% 的成绩领跑，仅两款模型“及格”。尽管非推理模型整体略逊，但 Qwen 3 Max Instruct 等个别模型表现亮眼。
能力洼地：“语义干扰”与“最优策略”是主要失分点，模型在这两项上的得分比整体准确率低约 10 个百分点。这暴露了模型易受干扰信息带偏，且缺乏多步全局规划能力。
效率分化：Gemini 3 Pro 仅用约 14k tokens 即拿下最高分，而其他取得相近准确率的模型，输出长度普遍暴涨至 25k-30k tokens。
难度含金量：与 BBH/BBEH 相比，各大模型在 General 365 上的准确率大幅下降（例如 GPT-5-Thinking 从 92.0% 降至 58.6%）。同时，模型在 General 365 上的平均输出长度显著增加，证实了难度来源于更深的逻辑链条，而非无意义的字数堆砌。

关键要点

评测范式转移：General 365 将大模型评测从依赖专业知识的“学科推理”转向限定 K-12 知识的“通用推理”，旨在剥离知识储备，纯粹评估逻辑推演能力。
现有基准缺陷：现有的 BBH 和 BBEH 等基准存在任务模板化、逻辑同质化及性能饱和问题，导致区分度下降，无法有效反映模型真实的通用推理水平。
题目设计严谨：基准包含 1460 道题目，通过人工原创、难度过滤、多样性扩充及严格质检，确保题目具备高多样性和高挑战性。
八大维度覆盖：推理能力被拆解为复杂约束、分支枚举、时空推理、递归回溯、语义干扰、隐式信息、最优策略、概率与不确定性八个维度，其中近 70% 题目为复合型任务。
模型能力真相：实测显示，即使是顶级模型 Gemini 3 Pro 准确率也仅 62.8%，多数模型不及格。模型在“语义干扰”和“最优策略”上表现最差，反映出易受干扰及规划能力不足。
效率与难度验证：Gemini 3 Pro 在保持最高准确率的同时，Token 消耗量（约 14k）显著低于其他模型（25k-30k）。此外，模型在 General 365 上准确率下降但输出长度增加，证明了其逻辑深度的提升。

意义与影响

General 365 的发布标志着大模型评测进入“深水区”。它不再仅仅关注模型在特定领域（如数学、编程）的记忆与匹配能力，而是聚焦于模型在真实世界通用场景下的逻辑鲁棒性。

这一基准揭示了当前大模型虽然能解决高难度竞赛题，但在处理涉及常识、多步规划及抗干扰能力的简单逻辑问题时仍存在显著短板。这种“高分低能”的现象表明，现有的高分可能更多依赖于数据拟合而非真正的智能泛化。

通过提供一把校准过的“标尺”，General 365 迫使研究者和开发者正视模型在通用推理上的不足，推动模型从“做题机器”向具备真正逻辑理解能力的“智能体”进化。美团 LongCat 团队开源该基准，旨在邀请社区共同探索大模型逻辑进化的下一个奇点，为构建更可靠、更通用的 AI 系统奠定基础。

查看原文 →tech.meituan.com

美团LongCat开源General 365：树立大模型通用推理评测新标尺

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐