Agent SkillLINUX DO · AI·2 小时前

实测多款AI单轮作答新高考数学一卷：GPT 5.5 Heavy满分

原标题：各大 AI 单轮跑一次新高考一卷究竟能拿多少分？（先来一部分强模型）

速览

本文对Claude Opus 4.8、GPT 5系列、Gemini系列及Qwen 3.7 Max等主流AI模型进行了一次性全卷作答新高考数学一卷的实测。结果显示，GPT 5.5 Heavy在多次运行中均取得满分150分，表现最佳；Claude Opus 4.8以146分紧随其后。测试采用一次性发送全部题目并辅以双模型互评机制，旨在评估大模型在复杂逻辑推理场景下的极限能力。

AI 深度解读

背景

随着大语言模型（LLM）在逻辑推理和数学解题能力上的显著提升，社区对于 AI 能否胜任高难度标准化考试（如中国新高考数学一卷）的关注度日益增加。此前，LINUX DO 社区曾发起关于“哪个 AI 高考数学能考满分”的讨论，并在试卷公布后进行了初步测试。

本次测试旨在通过更严谨的流程，评估当前主流强模型在一次性接收完整试卷情况下的实际表现。测试对象涵盖了 OpenAI、Google (Gemini)、Anthropic (Claude) 以及阿里巴巴 (Qwen) 等厂商的最新或旗舰模型。由于资源限制（API 额度、会员权限、算力成本），部分模型（如 Kimi、Deepseek、GLM、Muse Spark、Grok）未能纳入本次完整测试，但作者承诺后续将补测或针对特定模型进行单独分析。

核心内容

本次测试的核心在于模拟真实考试场景，即“一次性发送”整份新高考数学一卷，观察模型在长上下文、多任务并行处理下的稳定性与准确率。

1. 测试方法论与争议回应

一次性发送 vs. 分题发送： 作者选择一次性发送全部题目，理由是当前模型能力强大，旨在测试其整体处理长卷的能力。后续计划针对错题进行“多次询问取最差结果”的极端压力测试，并可能推出分题发送的独立排行榜。
例外情况： GPT OSS 120b 和 20b 采用了分题发送（新开对话）的方式，以确保其表现不被长上下文干扰。
模型覆盖范围：
- 纳入测试： Claude Opus 4.8, Gemini 3.1 Pro extended, Gemini 3.5 Flash, Gemini DeepThink, GPT 5.2 Pro extended, GPT 5.2 heavy, GPT 5.4 heavy, GPT 5.5 heavy, Qwen 3.7 Max。
- 未纳入测试及原因：
  - Kimi： 无 API 和官网会员。
  - 小米 (Xiaomi Mimo Studio)： 作者遗忘，承诺补测。
  - Deepseek： 无 API，官网非 Max 思考强度，认为测试不公平。
  - GLM 5.1 / Muse Spark / Grok： 无 API，且官网版本因思维链过长导致截断，无法完整作答。
  - Claude 4.8 Opus： 因成本高昂，仅由社区用户帮忙测试了一次。

2. 评分机制

客观题（1-14 题）： 包括单选、多选、填空。使用 Grok Build CLI - Composer 2.5 进行直接打分，确保客观公正。
主观题简单题（15-18 题）： 分为 8 组，每组 1-8 题，由双 GPT 5.5 Pro 交叉评分，若有争议则互评。
主观题困难题（19 题）： 单独为一组，分为 1-5 个部分，同样由双 GPT 5.5 Pro 评分并互评。
数据公开： 所有模型的原始输出（exam_source_public.zip）均已公开，供社区纠错和验证。

3. 测评结果概览 测试结果显示，顶级模型在数学能力上已具备接近或达到人类高分考生的水平。

最高分梯队：
- GPT 5.5 heavy： 表现最为稳定且强劲，四次运行得分分别为 150、150、150、150，疑似满分或接近满分。
- Gemini DeepThink： 三次运行得分分别为 150、146、150，具备冲击满分的能力。
- GPT 5.4 heavy： 三次运行得分分别为 150、146、146，表现优异。
- Claude Opus 4.8： 单次测试得分为 146 分（满分通常为 150 分，具体视试卷总分而定，此处推测为高分段）。
中坚梯队：
- GPT 5.2 Pro extended / GPT 5.2 heavy： 得分在 146-150 之间波动，表现稳定。
- Gemini 3.1 Pro extended： 得分在 142-146 之间。
- Qwen 3.7 Max： 得分在 138-146 之间，虽未达顶尖，但表现不俗。
其他模型：
- Gemini 3.5 Flash： 三次得分均为 142 分，表现稳定但略低于 Pro 版本。

4. 耗时分析

最快响应： GPT 5.5 heavy 在最后一次运行中仅用时 6 分 44 秒，且得分最高，显示出极高的效率与质量平衡。
最慢响应： GPT 5.2 Pro extended 耗时极长（约 1 小时 40 分 -1 小时 49 分），可能与其 extended 模式或 heavy 推理机制有关。
Qwen 3.7 Max： 耗时从 9 分钟到 22 分钟不等，官网体验流畅，无明显卡顿。

关键要点

头部模型差距缩小： GPT 5.5 heavy、Gemini DeepThink 和 GPT 5.4 heavy 在数学推理上已展现出统治力，多次获得 150 分（或接近满分）的高分，表明这些模型在复杂逻辑链和数学计算上已超越多数人类考生。
效率与质量的权衡： GPT 5.5 heavy 在保持最高得分的同时，大幅缩短了推理时间（从 1 小时+缩短至 6-13 分钟），这可能意味着模型架构或推理策略的重大优化。
国产模型竞争力： Qwen 3.7 Max 在测试中表现良好（最高 146 分），且官网体验（20 分钟思考不截断、流畅）优于部分国外模型的网页版，显示出阿里在长上下文处理和用户体验上的优势。
测试局限性： 由于 API 和会员限制，测试未覆盖 Kimi、Deepseek、GLM 等国内热门模型，也未覆盖 Grok 和 Muse Spark。因此，当前排行榜仅代表“可访问模型”中的表现，不代表全市场模型的真实排名。
评分透明度： 作者公开了原始输出和评分流程，采用自动化打分（客观题）和双盲互评（主观题）相结合的方式，提高了结果的可信度。

意义与影响

AI 能力基准的新标尺： 新高考数学一卷作为高难度、高区分度的标准化考试，其测试结果成为衡量 AI 逻辑推理、数学建模和长上下文处理能力的重要基准。GPT 5.5 heavy 等模型的满分表现，标志着 AI 在特定领域的认知能力已达到人类顶尖水平。
推动模型优化方向： 测试中 GPT 5.5 heavy 的高分与低耗时，提示模型厂商在追求准确率的同时，需重视推理效率的优化。Gemini DeepThink 的长耗时（20 分钟）与高分对比，也反映出不同模型在“深度思考”策略上的差异。
社区驱动的评估生态： 此类由社区发起、公开数据、透明评分的测试，弥补了官方评测在实时性和多样性上的不足。它鼓励用户参与纠错和验证，形成了更贴近真实应用场景的评估体系。
对教育与技术应用的启示： AI 在高考数学中的高分表现，预示着其在个性化辅导、自动解题、教育辅助等领域的应用潜力巨大。然而，测试也暴露了模型在“一次性处理完整试卷”时的潜在风险（如截断、注意力分散），提示开发者需进一步优化长文本处理能力。
后续研究方向： 作者提出的

查看原文 →linux.do

实测多款AI单轮作答新高考数学一卷：GPT 5.5 Heavy满分

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐