技术博客arXiv cs.CL·3 小时前

大模型推理能力全景图：范式、方法与失效模式综述

原标题：The Periodic Table of LLM Reasoning: A Structured Survey of Reasoning Paradigms, Methods, and Failure Modes

速览

该综述分析了300多篇关于大语言模型推理能力的最新研究，构建了涵盖思维链、多跳推理及强化学习等范式的结构化分类体系。文章深入探讨了提示工程、模型架构及训练目标等方法论趋势，并总结了推理幻觉、多步推理脆弱性等常见失效模式。研究旨在为开发更鲁棒、可解释且具备泛化能力的未来推理系统提供统一视角与参考。

AI 深度解读

大语言模型推理的周期表：推理范式、方法与失效模式的结构化综述

背景

尽管大型语言模型（LLMs）在自然语言处理任务中取得了显著的性能突破，但“可靠的推理”仍然是该领域尚未完全解决的核心挑战。虽然现代 LLM 在结构化推理、多步问题解决以及上下文理解方面展现了进步，但其推理行为往往表现出不一致性，且对提示策略（prompting strategies）、任务设计以及模型规模高度敏感。

为了系统性地梳理这一快速扩张的文献领域，本文献综述基于 arXiv、Semantic Scholar、Google Scholar、Papers with Code 以及 ACL Anthology 等平台，对超过 300 篇近期论文进行了深入分析。旨在回答两个核心问题：LLM 的推理能力是如何涌现的？它们在何处会失败？

核心内容

本综述通过三个主要贡献，构建了一个关于 LLM 推理能力的结构化全景图：

1. 构建 LLM 推理研究的结构化分类法

文章首先提出了一套系统的分类体系，涵盖了当前 LLM 推理研究的主要范式：

链式思维推理（Chain-of-Thought reasoning）：引导模型逐步展示推理过程。
多跳推理（Multi-hop reasoning）：处理需要结合多个信息源或步骤的问题。
数学推理（Mathematical reasoning）：解决逻辑和计算密集型任务。
常识推理（Common sense reasoning）：基于日常经验进行推断。
视觉与时序推理（Visual and temporal reasoning）：结合图像理解及时间序列逻辑。
代码与算法推理（Code and algorithmic reasoning）：生成代码及执行算法逻辑。
检索增强推理（Retrieval-augmented reasoning）：结合外部知识库进行推理。
工具增强与智能体推理（Tool-augmented and agentic reasoning）：利用外部工具或自主代理执行复杂任务。
基于强化学习的推理（Reinforcement learning-based reasoning）：通过奖励信号优化推理路径。

2. 分析方法论趋势

综述深入分析了上述各范式背后的方法论演变，重点关注以下维度：

提示方法（Prompting methods）：如何设计输入以激发最佳推理表现。
模型架构（Model architectures）：底层结构对推理能力的支撑。
训练目标（Training objectives）：损失函数与优化目标如何引导推理能力。
奖励建模（Reward modeling）：如何量化和评估推理质量。
评估基准（Evaluation benchmarks）：当前用于衡量推理能力的标准测试集。

3. 综合局限性与失效模式

文章特别关注 LLM 推理中的“阴暗面”，总结了反复出现的局限性和失效模式：

推理幻觉（Reasoning hallucinations）：模型生成看似合理但逻辑错误或事实错误的推理步骤。
脆弱的多步推理（Brittle multi-step inference）：在长链条推理中，早期步骤的错误会导致最终结果完全失败，缺乏鲁棒性。
弱的因果抽象能力（Weak causal abstraction）：难以真正理解事件间的因果机制，仅依赖统计相关性。
跨领域泛化能力差（Poor cross-domain generalization）：在某一领域训练出的推理能力难以迁移到截然不同的新领域。

此外，综述还识别了新兴的研究方向，包括元推理（Meta-reasoning）、自进化推理框架（Self-evolving reasoning frameworks）、多模态推理（Multimodal reasoning）以及基于社会情境的推理（Socially grounded reasoning）。

关键要点

推理能力并非单一维度：LLM 的推理能力是多方面的，涵盖从简单的逻辑链到复杂的智能体交互，不同范式之间存在显著差异，不能一概而论。
提示工程仍是关键变量：尽管模型规模增大带来了能力提升，但推理表现依然高度依赖于提示策略和任务设计，显示出模型内部推理机制的不稳定性。
“幻觉”不仅限于事实，更在于逻辑：除了常见的知识性幻觉，推理过程中的逻辑幻觉（即步骤正确但结论错误，或步骤错误但结论碰巧正确）是当前研究的重难点。
鲁棒性与泛化性是主要瓶颈：当前的推理模型在面对分布外（Out-of-Distribution）数据或需要跨领域迁移时，表现往往大幅下降，且多步推理的容错率极低。
从“静态推理”向“动态/自进化”转变：未来的研究趋势正从固定的推理模板转向能够自我反思、自我修正甚至自我进化的推理框架。
评估体系的复杂性：现有的评估基准可能无法全面捕捉推理的真实能力，特别是在多模态和社会化推理等新兴领域，缺乏统一且可靠的评估标准。

意义与影响

这篇综述为理解 LLM 推理能力的现状提供了一个统一的视角。它不仅总结了当前的技术边界，更明确了未来开发更鲁棒、可解释且具备更强泛化能力的推理系统的方向。

对于研究人员而言，该分类法有助于定位具体研究在整体版图中的位置，避免重复工作，并识别出如“因果抽象”和“跨领域泛化”等亟待突破的理论空白。对于工程实践者而言，理解推理的失效模式（如多步推理的脆弱性）有助于设计更健壮的提示策略和系统架构，例如引入检索增强或工具调用机制来弥补模型内部推理的不足。

总体而言，这项工作标志着 LLM 研究从单纯追求“答案准确率”向深入探究“推理过程可靠性”的重要转变，为构建下一代真正具备逻辑智能的语言模型奠定了理论基础。

查看原文 →arxiv.org