← 返回信息流
技术博客arXiv cs.AI·2 小时前

有限监督下重探思维链:半监督思维链学习

原标题:Revisiting Chain-of-Thought Reasoning under Limited Supervision: Semi-supervised Chain-of-Thought Learning

速览

arXiv论文提出半监督思维链学习框架Semi-CoT,定义在有限监督下的半监督CoT学习,利用无标签问题构造伪思维链。通过采样多个伪链并估算语义熵,选择低熵可靠链作为伪监督演示。此框架将CoT推理从仅推理时提示扩展为半监督伪监督信号。Pilot实验在AQuA、SVAMP、GSM8K、MultiArith数据集上验证,伪答案精度达91.36%至100%,小模型在SVAMP和GSM8K获得小幅提升,AQuA负迁移而MultiArith已达上限。结果表明无标签问题可提供可靠伪推理信号,但需更强演示选择或学生模型训练方能充分发挥效果。

AI 深度解读

背景

Chain-of-Thought(CoT)推理作为激活大型语言模型(LLM)潜在推理能力的一种有效方法,已在自然语言处理领域得到广泛认可和应用。该方法通过在推理过程中逐步分解问题、展示中间思考步骤来引导模型生成更准确、更可靠的答案。然而,目前大多数现有的CoT方法主要将推理链作为推理时的提示

查看原文 →arxiv.org