技术博客arXiv cs.CL·7 天前

幻觉有用吗？通过链式系统一/二推理利用小型语言模型解决多跳问题

原标题：Can Hallucinations Be Useful? Solving Multi-Hop Questions With SLMs By Chaining System-I/II Reasoning

速览

针对小型语言模型（SLMs）幻觉频发的问题，本文提出了一种“先回答后推理”的认知启发框架。该方法允许模型先基于直觉快速给出初始答案，再检索证据进行深度推理，利用幻觉辅助定位真相。实验表明，该策略在多跳问答基准测试中优于传统的“先思考后回答”方法。

AI 深度解读

幻觉也能派上用场？通过链式系统一/二推理，利用小型语言模型（SLM）解决多跳问题

背景

近年来，小型语言模型（Small Language Models, SLMs）受到了越来越多的关注。与大型语言模型（LLMs）相比，SLMs 具有推理速度快、硬件资源需求低且性能表现良好的优势。然而，SLMs 面临的一个主要挑战是比 LLMs 更容易产生“幻觉”（Hallucinations，即模型生成看似合理但事实错误或无意义的信息）。

在解决复杂的多步推理问题时，这种高频幻觉会严重影响最终结果的准确性。因为早期的错误判断往往会像多米诺骨牌一样产生级联效应，导致最终回答偏离正确答案。

为了解决这一问题，现有的主流研究通常采用“先思考后检索”（think-first）的策略，即让模型先进行初步推理，再通过迭代检索外部知识来减少幻觉。然而，本文作者认为这种策略并非总是必要的，并提出了一个反直觉的观点：幻觉在某些情况下不仅无害，反而有助于锁定正确答案。

核心内容

本文提出了一种受认知科学启发的框架，旨在通过结合“系统一”（System-I）和“系统二”（System-II）的推理模式，利用 SLMs 解决多跳问答（Multi-hop QA）问题。该框架的核心在于对传统“先思考”策略的逆向操作，即采用“先回答，后推理”（answer first-reason later）的策略。

1. 对“先思考”策略的反思

传统观点认为，模型在生成最终答案前必须经过深思熟虑以消除不确定性。但作者通过实验发现两个关键现象：

SLMs 在初始答案上往往具有准确的自信度：即使答案不完全正确，模型对其初始输出的置信度通常是有参考价值的。
幻觉具有引导价值：模型生成的错误答案（幻觉）并非毫无意义，它们可以作为假设，帮助模型在后续步骤中通过检索证据来验证或修正，从而更精准地逼近真相。

2. “先回答，后推理”框架详解

该框架模拟了人类的双系统思维过程：

第一阶段：系统一快速回答（System-I / Zero-shot） 模型被允许基于直觉快速生成一个初始答案。这一阶段不进行复杂的逻辑推导或外部检索，旨在利用 SLMs 的快速响应能力生成一个初始假设（Hypothesis）。
第二阶段：系统二深度思考（System-II / Evidence-based） 基于第一阶段生成的初始假设，模型利用该假设作为查询线索，从知识库中检索相关证据。随后，模型进入深度思考模式，利用检索到的证据对初始假设进行验证、修正或细化，最终得出准确的多跳答案。

3. 方法论优势

通过这种链式推理机制，模型不再试图在第一步就避免所有错误，而是允许错误存在并将其转化为检索的“锚点”。这种方法有效地利用了 SLMs 的速度优势，同时通过第二阶段的证据检索弥补了其逻辑深度的不足。

关键要点

策略反转：本文提出了一种与现有主流“先思考后检索”相反的策略，即“先回答后推理”。
双系统思维模拟：
- System-I：快速、直觉式的零样本回答，生成初始假设。
- System-II：基于证据的深度推理，利用初始假设检索知识并验证答案。
幻觉的正面价值：研究指出，SLMs 的幻觉并非纯粹的错误，它们可以作为有用的线索，帮助模型在检索阶段缩小搜索范围或验证事实。
SLMs 的自信度利用：SLMs 对初始答案的自信程度可以作为系统二推理的权重参考，无需强制要求模型在第一步就完美无缺。
性能验证：在多个多步问答基准测试中，该方法的表现优于采用传统“先思考”路线的现有工作。

意义与影响

这项研究为小型语言模型在复杂推理任务中的应用提供了新的思路。它挑战了“幻觉必须被消除”的传统教条，转而探索如何利用幻觉作为推理过程中的中间步骤。

对于工业界而言，这意味着可以在资源受限的边缘设备或低成本服务器上部署 SLMs，并通过这种链式推理机制实现接近 LLMs 的多跳问答能力，而无需承担 LLMs 高昂的计算成本和延迟。此外，该框架的认知科学基础也为未来开发更类人、更高效的人工智能推理架构提供了理论支持。

查看原文 →arxiv.org