技术博客arXiv cs.AI·3 小时前

LLM在扩展搜索空间中实现逐步优化推理

原标题：Step-by-Step Optimization-like Reasoning in LLMs over Expanding Search Spaces

速览

研究提出OPT*可扩展任务族，用于训练和评估大模型在复杂搜索空间中的逐步优化推理。该方法通过可行性检查器和评估器，在不增加人工标注的情况下扩展搜索空间。实验表明，在OPT*上训练能显著提升模型的逐步优化推理性能。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）