技术博客arXiv cs.CL·3 小时前

大模型解题能力研究：静态学问题多步推理存在短板

原标题：Investigating LLM's Problem Solving Capability -- a Study on Statics Questions

速览

针对大语言模型在工程教育领域的应用，本研究采用模型蒸馏方法评估其在静态学问题上的解题能力。研究构建了纯文本、含图表及修改数值的多组数据集进行实验。结果显示，尽管大模型在纯文本题目上表现良好，但在引入图表且需多步推理时准确率显著降低。分析表明，性能下降主要源于多步推理困难及跨阶段视觉信息应用不一致，而非图像识别能力不足。

AI 深度解读

探究大语言模型的问题解决能力：基于静力学问题的研究

背景

大型语言模型（LLMs）凭借其完成跨学科作业和考试的能力，已迅速渗透并深刻影响着社会的多个层面，尤其是在教育领域。尽管此前已有大量研究探讨了 LLMs 对教育的影响，但现有工作大多依赖于公开或开源的问题数据集，且缺乏针对特定主题的深度分析。

在工程教育领域，特别是机械工程学科中，关于 LLMs 在解决特定类型问题上的系统性表现研究仍然十分有限。传统的评估方法通常直接向 LLM 工具输入教科书中的习题，这种方法往往忽略了工程问题中常见的非文本元素（如图表、示意图）以及多步推理的复杂性。为了弥补这一空白，本研究并未采用传统的直接提问方式，而是引入了一种模型蒸馏（model distillation）流程，旨在更系统地评估 LLMs 解决静力学（Statics）问题的能力。

核心内容

本研究的核心在于构建一个专门用于评估 LLMs 在工程静力学问题求解能力的测试框架，并通过对比不同数据模态下的模型表现，深入剖析其能力边界。

1. 数据构建与蒸馏过程 研究团队首先利用 ChatGPT 作为基础模型进行“蒸馏”，从中提取并生成了 25 道纯文本形式的静力学问题。为了模拟真实工程教育场景中的复杂性，研究者在这些纯文本问题的基础上，进一步构建了两个额外的数据集：

含图数据集：在原有问题中添加了相关的力学示意图或结构图。
数值修改数据集：对问题的数值参数进行了修改，以测试模型的泛化能力和计算稳定性。

2. 实验设计与评估 研究通过对比 LLMs 在三种不同数据形式（纯文本、含图、数值变体）下的表现，来量化其解决静力学问题的能力。评估重点不仅在于最终答案的正确率，还关注模型在解题过程中的逻辑一致性和多步推理能力。

3. 主要发现 实验结果显示，LLMs 在处理纯文本形式的静力学问题时表现良好，准确率较高。然而，当问题引入图表（diagrams）并要求进行多步推理时，模型的准确率出现了显著下降。

4. 归因分析 针对性能下降的原因，研究团队进行了深入分析。结果表明，这种性能衰退主要不是由图像识别（image recognition）能力的局限性引起的。相反，主要原因在于：

多步推理困难：LLMs 在连续多个解题步骤中保持逻辑连贯性方面存在挑战。
视觉信息提取与应用的不一致性：模型难以在连续的解题阶段中，始终如一地正确提取并应用从图表中获取的视觉信息。这意味着，模型可能在第一步正确理解了图表，但在后续步骤中丢失或错误地应用了该信息。

关键要点

研究缺口填补：现有 LLM 教育影响研究多依赖通用公开数据集，缺乏针对机械工程等特定领域、特定问题类型（如静力学）的系统性评估。
方法论创新：摒弃了直接提问教科书的传统方法，采用基于 ChatGPT 的模型蒸馏技术，构建了包含纯文本、含图及数值变体的专用静力学数据集。
纯文本表现优异：LLMs 在解决仅依赖文本描述的静力学问题时，展现出较高的准确性和能力。
图表引入导致性能下滑：当静力学问题包含示意图时，LLMs 的解题准确率显著降低。
瓶颈在于推理而非识别：性能下降的核心原因并非模型“看不懂”图（图像识别能力不足），而是模型在多步推理过程中，无法在连续的解题阶段中稳定地提取和应用从图表中获得的视觉信息。
工程教育的启示：对于需要结合图形分析与复杂逻辑推导的工程学科，当前的 LLMs 仍面临严峻挑战，特别是在保持长程逻辑一致性和跨模态信息整合方面。

意义与影响

这项研究对理解 LLMs 在高等教育，特别是STEM（科学、技术、工程、数学）领域的实际应用潜力具有重要意义。

首先，它揭示了当前大语言模型在处理复杂工程问题时的具体弱点。虽然 LLMs 在自然语言处理和基础逻辑上表现强劲，但在需要结合视觉空间信息与多步逻辑推导的工程场景中，其表现并不稳定。这对于教育者评估 LLMs 作为辅助学习工具的风险和局限性提供了实证依据。

其次，研究结果指出了未来模型改进的关键方向。既然问题不在于图像识别本身，而在于多步推理和信息的一致性保持，那么未来的模型优化应侧重于增强长程依赖建模能力、提升跨模态信息在推理链条中的持久性与准确性，以及开发更有效的思维链（Chain-of-Thought）引导机制，以确保模型在复杂解题过程中不丢失关键视觉线索。

最后，对于工程教育而言，这一发现提醒我们，尽管 LLMs 可以辅助解答基础理论问题，但在涉及复杂系统设计、力学分析等需要高度整合图文信息的专业技能训练上，人类教师的指导和学生的独立思维训练依然不可替代。LLMs 目前更适合作为概念解释或简单计算的工具，而非复杂的工程问题解决代理。

查看原文 →arxiv.org