技术博客arXiv cs.AI·2 小时前

有限监督下重探思维链：半监督思维链学习

原标题：Revisiting Chain-of-Thought Reasoning under Limited Supervision: Semi-supervised Chain-of-Thought Learning

速览

arXiv论文提出半监督思维链学习框架Semi-CoT，定义在有限监督下的半监督CoT学习，利用无标签问题构造伪思维链。通过采样多个伪链并估算语义熵，选择低熵可靠链作为伪监督演示。此框架将CoT推理从仅推理时提示扩展为半监督伪监督信号。Pilot实验在AQuA、SVAMP、GSM8K、MultiArith数据集上验证，伪答案精度达91.36%至100%，小模型在SVAMP和GSM8K获得小幅提升，AQuA负迁移而MultiArith已达上限。结果表明无标签问题可提供可靠伪推理信号，但需更强演示选择或学生模型训练方能充分发挥效果。

AI 深度解读

背景

Chain-of-Thought（CoT）推理作为激活大型语言模型（LLM）潜在推理能力的一种有效方法，已在自然语言处理领域得到广泛认可和应用。该方法通过在推理过程中逐步分解问题、展示中间思考步骤来引导模型生成更准确、更可靠的答案。然而，目前大多数现有的CoT方法主要将推理链作为推理时的提示

查看原文 →arxiv.org

有限监督下重探思维链：半监督思维链学习

速览

AI 深度解读

背景

相关推荐