高考数学难上热搜,作者用ChatGPT和豆包PK
速览
高考数学题目难度引发全网关注,成为热搜话题。作者选取典型试题,分别使用ChatGPT和豆包两款AI工具进行解题测试。此次PK旨在直观对比不同大模型在复杂数学推理任务上的实际表现与能力差异。
AI 深度解读
背景
今年高考数学考试因其“计算量大、题型新、区分度高”而引发广泛讨论,许多考生表示题目难到“每一道都这么能算”。与此同时,公众对于人工智能(AI)能否应对此类高难度、新题型的高考数学题产生了浓厚兴趣。
长期以来,网络上存在一种观点,认为AI在处理简单计算时容易出错,更不可能解答从未见过的新高考题。然而,这种观点往往基于AI的“快速模式”(适合日常问答),而忽略了针对复杂数学、逻辑推理和编程分析任务,应当使用模型的“深度思考”模式。基于此,量子位选取了当前热门的AI产品——豆包(思考模式)与 ChatGPT(GPT-5.5),通过图像输入方式对同一张高考数学卷进行了实测PK,旨在验证头部AI在中文数学场景下的真实解题能力。
核心内容
本次实测将高考数学卷分为单选题、多选题、填空题和解答题四个部分,分别测试豆包思考模式和 ChatGPT 的表现。测试结果显示,两者在选择题和填空题上均回答准确,解答题部分则展示了稳定的多步推理能力。
1. 单选题:基础与梯度并存 前四题涉及中位数、平面向量、三角函数集合交集及导数切线方程。豆包和 ChatGPT 均能准确识别考点,完成求导、代入斜率等步骤,未出现函数值与导数值混淆等低级错误。 后五题难度提升,涉及抛物线焦点距离、函数参数反推、数列分组(如“一百零八塔”情境)、空间点集数学期望等。AI 展现了扎实的解析几何基础和中文长题干理解能力。例如在第8题中,面对样本空间删去特定点的情况,两者均能捕捉到对称性被打破的扰动,而非直接套用公式。
2. 多选题:逐项验证与直觉排除 多选题要求对共轭、模长、复数除法等多个结论进行逐项验证。豆包和 ChatGPT 均表现出细致的判断力。 在第10题空间几何判断中,ChatGPT 的排除过程更为直接,而豆包的推导更为展开。 在第11题圆与直线交点条件的拆解中,两者在部分选项判断上出现差异,提示多选综合题仍需人工结合标准答案核验。
3. 填空题:无选项兜底的独立计算 填空题缺乏选项提示,考验最终答案的准确性。 第12题双曲线离心率、第13题函数奇偶性与单调性、第14题数列构造,两者均能沿着性质推导,核心计算一致。特别是在第14题中,AI 没有直接代公式,而是尝试先求连续三项和再分析等比关系,推理链条清晰。
4. 解答题:长链条推理与证明 解答题部分展示了 AI 处理复杂几何证明和概率建模的能力。
- 立体几何与解析几何:在第15、16、18题中,AI 倾向于建立坐标系,利用余弦定理和坐标化求解来降低想象难度,完成了从边角关系到面积条件的长链条推导。
- 概率与函数:在第17题概率题中,AI 准确处理了“停止规则”及边界情况;在第19题函数逻辑证明中,AI 给出了包含关系、单调性推导的完整框架。
尽管 AI 表现稳定,但文章指出,压轴题仍建议人工复核关键代数步骤,因为任何一步计算或条件理解出错,都可能导致后续连锁错误。
关键要点
- 模式差异决定表现:AI 在复杂数学任务上的上限取决于是否使用“深度思考”模式。快速模式追求速度,适合日常问答;思考模式则通过展开推理、检查条件、组织步骤,能显著提升解题准确率。用快速模式测试 AI 的复杂推理上限会导致结论失真。
- 能力重心转移:AI 做高考数学的讨论焦点,已从单纯的“会不会算”转向“能不能稳定读题、拆条件、验步骤”。AI 需要避免粗心(单选)、逐项判断(多选)、独立计算(填空)并讲清证明过程(大题)。
- 头部 AI 具备强解题能力:豆包思考模式和 ChatGPT(GPT-5.5)在高考数学卷上均表现出相当稳定的解题能力,尤其在多步推理、函数分析、概率建模和解析几何计算上,能按照人类解题路径推进。
- AI 并非绝对正确:AI 不应被视为永远正确的答案机。特别是在多选综合题、压轴解析几何和函数证明等长链条任务中,严谨性仍需逐步检查。
- 最佳使用场景:AI 更适合作为“高质量解题陪练”,帮助用户拆题、核对思路、提醒易错步骤,而非简单的抄答案工具。
意义与影响
这次高考数学实测不仅是一次产品能力的对比,更是一次针对 AI 在中文数学场景下稳定工作的公开压力测试。
首先,它证实了头部 AI 已经具备相当强的高考数学解题能力,能够处理标准、严苛且推理链条长的复杂任务。这标志着 AI 从简单的知识检索工具,进化为具备逻辑推理和问题拆解能力的智能助手。
其次,它重新定义了人机协作的学习方式。随着 AI 解题能力的提升,教育的重点可能从“获取答案”转向“验证过程”和“思维训练”。学生可以利用 AI 进行思路校验和错题分析,教师则需引导学生关注 AI 推理过程中的严谨性。
最后,这一测试提醒技术开发者,在优化模型时,应更加重视“思考模式”下的逻辑连贯性和中间步骤的可解释性,以更好地服务于教育、科研等高严谨性需求的应用场景。
