LLM在扩展搜索空间中实现逐步优化推理
原标题:Step-by-Step Optimization-like Reasoning in LLMs over Expanding Search Spaces
速览
研究提出OPT*可扩展任务族,用于训练和评估大模型在复杂搜索空间中的逐步优化推理。该方法通过可行性检查器和评估器,在不增加人工标注的情况下扩展搜索空间。实验表明,在OPT*上训练能显著提升模型的逐步优化推理性能。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
