实测多款AI单轮作答新高考数学一卷:GPT 5.5 Heavy满分
原标题:各大 AI 单轮跑一次新高考一卷究竟能拿多少分?(先来一部分强模型)
速览
本文对Claude Opus 4.8、GPT 5系列、Gemini系列及Qwen 3.7 Max等主流AI模型进行了一次性全卷作答新高考数学一卷的实测。结果显示,GPT 5.5 Heavy在多次运行中均取得满分150分,表现最佳;Claude Opus 4.8以146分紧随其后。测试采用一次性发送全部题目并辅以双模型互评机制,旨在评估大模型在复杂逻辑推理场景下的极限能力。
AI 深度解读
背景
随着大语言模型(LLM)在逻辑推理和数学解题能力上的显著提升,社区对于 AI 能否胜任高难度标准化考试(如中国新高考数学一卷)的关注度日益增加。此前,LINUX DO 社区曾发起关于“哪个 AI 高考数学能考满分”的讨论,并在试卷公布后进行了初步测试。
本次测试旨在通过更严谨的流程,评估当前主流强模型在一次性接收完整试卷情况下的实际表现。测试对象涵盖了 OpenAI、Google (Gemini)、Anthropic (Claude) 以及阿里巴巴 (Qwen) 等厂商的最新或旗舰模型。由于资源限制(API 额度、会员权限、算力成本),部分模型(如 Kimi、Deepseek、GLM、Muse Spark、Grok)未能纳入本次完整测试,但作者承诺后续将补测或针对特定模型进行单独分析。
核心内容
本次测试的核心在于模拟真实考试场景,即“一次性发送”整份新高考数学一卷,观察模型在长上下文、多任务并行处理下的稳定性与准确率。
1. 测试方法论与争议回应
- 一次性发送 vs. 分题发送: 作者选择一次性发送全部题目,理由是当前模型能力强大,旨在测试其整体处理长卷的能力。后续计划针对错题进行“多次询问取最差结果”的极端压力测试,并可能推出分题发送的独立排行榜。
- 例外情况: GPT OSS 120b 和 20b 采用了分题发送(新开对话)的方式,以确保其表现不被长上下文干扰。
- 模型覆盖范围:
- 纳入测试: Claude Opus 4.8, Gemini 3.1 Pro extended, Gemini 3.5 Flash, Gemini DeepThink, GPT 5.2 Pro extended, GPT 5.2 heavy, GPT 5.4 heavy, GPT 5.5 heavy, Qwen 3.7 Max。
- 未纳入测试及原因:
- Kimi: 无 API 和官网会员。
- 小米 (Xiaomi Mimo Studio): 作者遗忘,承诺补测。
- Deepseek: 无 API,官网非 Max 思考强度,认为测试不公平。
- GLM 5.1 / Muse Spark / Grok: 无 API,且官网版本因思维链过长导致截断,无法完整作答。
- Claude 4.8 Opus: 因成本高昂,仅由社区用户帮忙测试了一次。
2. 评分机制
- 客观题(1-14 题): 包括单选、多选、填空。使用 Grok Build CLI - Composer 2.5 进行直接打分,确保客观公正。
- 主观题简单题(15-18 题): 分为 8 组,每组 1-8 题,由双 GPT 5.5 Pro 交叉评分,若有争议则互评。
- 主观题困难题(19 题): 单独为一组,分为 1-5 个部分,同样由双 GPT 5.5 Pro 评分并互评。
- 数据公开: 所有模型的原始输出(exam_source_public.zip)均已公开,供社区纠错和验证。
3. 测评结果概览 测试结果显示,顶级模型在数学能力上已具备接近或达到人类高分考生的水平。
-
最高分梯队:
- GPT 5.5 heavy: 表现最为稳定且强劲,四次运行得分分别为 150、150、150、150,疑似满分或接近满分。
- Gemini DeepThink: 三次运行得分分别为 150、146、150,具备冲击满分的能力。
- GPT 5.4 heavy: 三次运行得分分别为 150、146、146,表现优异。
- Claude Opus 4.8: 单次测试得分为 146 分(满分通常为 150 分,具体视试卷总分而定,此处推测为高分段)。
-
中坚梯队:
- GPT 5.2 Pro extended / GPT 5.2 heavy: 得分在 146-150 之间波动,表现稳定。
- Gemini 3.1 Pro extended: 得分在 142-146 之间。
- Qwen 3.7 Max: 得分在 138-146 之间,虽未达顶尖,但表现不俗。
-
其他模型:
- Gemini 3.5 Flash: 三次得分均为 142 分,表现稳定但略低于 Pro 版本。
4. 耗时分析
- 最快响应: GPT 5.5 heavy 在最后一次运行中仅用时 6 分 44 秒,且得分最高,显示出极高的效率与质量平衡。
- 最慢响应: GPT 5.2 Pro extended 耗时极长(约 1 小时 40 分 -1 小时 49 分),可能与其 extended 模式或 heavy 推理机制有关。
- Qwen 3.7 Max: 耗时从 9 分钟到 22 分钟不等,官网体验流畅,无明显卡顿。
关键要点
- 头部模型差距缩小: GPT 5.5 heavy、Gemini DeepThink 和 GPT 5.4 heavy 在数学推理上已展现出统治力,多次获得 150 分(或接近满分)的高分,表明这些模型在复杂逻辑链和数学计算上已超越多数人类考生。
- 效率与质量的权衡: GPT 5.5 heavy 在保持最高得分的同时,大幅缩短了推理时间(从 1 小时+缩短至 6-13 分钟),这可能意味着模型架构或推理策略的重大优化。
- 国产模型竞争力: Qwen 3.7 Max 在测试中表现良好(最高 146 分),且官网体验(20 分钟思考不截断、流畅)优于部分国外模型的网页版,显示出阿里在长上下文处理和用户体验上的优势。
- 测试局限性: 由于 API 和会员限制,测试未覆盖 Kimi、Deepseek、GLM 等国内热门模型,也未覆盖 Grok 和 Muse Spark。因此,当前排行榜仅代表“可访问模型”中的表现,不代表全市场模型的真实排名。
- 评分透明度: 作者公开了原始输出和评分流程,采用自动化打分(客观题)和双盲互评(主观题)相结合的方式,提高了结果的可信度。
意义与影响
- AI 能力基准的新标尺: 新高考数学一卷作为高难度、高区分度的标准化考试,其测试结果成为衡量 AI 逻辑推理、数学建模和长上下文处理能力的重要基准。GPT 5.5 heavy 等模型的满分表现,标志着 AI 在特定领域的认知能力已达到人类顶尖水平。
- 推动模型优化方向: 测试中 GPT 5.5 heavy 的高分与低耗时,提示模型厂商在追求准确率的同时,需重视推理效率的优化。Gemini DeepThink 的长耗时(20 分钟)与高分对比,也反映出不同模型在“深度思考”策略上的差异。
- 社区驱动的评估生态: 此类由社区发起、公开数据、透明评分的测试,弥补了官方评测在实时性和多样性上的不足。它鼓励用户参与纠错和验证,形成了更贴近真实应用场景的评估体系。
- 对教育与技术应用的启示: AI 在高考数学中的高分表现,预示着其在个性化辅导、自动解题、教育辅助等领域的应用潜力巨大。然而,测试也暴露了模型在“一次性处理完整试卷”时的潜在风险(如截断、注意力分散),提示开发者需进一步优化长文本处理能力。
- 后续研究方向: 作者提出的
查看原文 →linux.do
