进化微调让大模型跨371项任务复用搜索经验
速览
研究人员提出进化微调(EFT)范式,将进化搜索轨迹转化为监督信号,教导大模型在不同任务间复用进化能力。通过构建涵盖371项优化任务的Finch数据集,微调后的2B至9B参数模型在22个未见任务上平均超越基线模型10.22%。结合测试时强化学习,该模型在圆 packing 和 Erdős 最小重叠问题上达到或超越最先进水平。
AI 深度解读
Evolution Fine-Tuning:在371个优化任务中学习“发现”
背景
近年来,将大型语言模型(LLMs)整合到进化搜索(Evolutionary Search)框架中,已在多个复杂领域取得了突破性进展。这些领域包括开放数学猜想、GPU内核设计、科学定律发现以及组合谜题求解等。现有的方法通常依赖于“搜索脚手架”(Search Scaffolds),即由外部程序或特定算法控制搜索过程,而LLM仅作为生成候选解的组件。
然而,这种传统范式存在一个显著缺陷:每次面对新问题或新任务时,模型都必须从头开始探索。这意味着在搜索过程中积累的宝贵经验——例如知道如何变异、何时回溯、如何迭代优化解决方案——一旦当前任务结束或模型尝试失败,这些能力就会被丢弃,无法被模型内化或复用。
这就引出了一个长期未被充分探讨的问题:LLM本身是否具备习得这种“迭代进化”能力的可能性?如果模型能够学会如何像进化算法一样思考,并在不同任务间迁移这种能力,将会极大地提升其作为通用发现代理(General-purpose Discovery Agents)的潜力。
核心内容
为了解决上述问题,研究人员提出了 Evolution Fine-Tuning (EFT),这是一种旨在教导LLM跨任务进化解决方案的中期训练(Mid-training)范式。
1. 方法论:将进化轨迹转化为监督信号
EFT的核心思想是将进化搜索的过程转化为可用于监督学习的数据。具体来说,它不直接训练模型生成最终答案,而是训练模型理解并执行“进化”这一过程。通过构建包含搜索轨迹的数据集,模型学习如何在迭代中改进解决方案,包括决定变异的部分、变异的方式以及何时进行回溯。
2. 数据集:Finch Collection
为了支持EFT的训练,研究团队构建了 Finch Collection 数据集。该数据集具有以下特点:
- 规模:包含15.6万个(156K)进化搜索轨迹。
- 覆盖范围:跨越10个不同的领域,涵盖371个优化任务。
- 任务类型:包括数学猜想证明、代码优化、科学发现等多样化的复杂问题。
3. 实验设置与模型
研究团队在参数量从2B到9B不等的开源LLM上进行了微调实验。这些模型经过EFT范式训练后,被评估其在未见任务上的泛化能力。
4. 实证结果
- 跨任务泛化能力:在22个保留测试集(Held-out tasks)上,经过EFT微调的模型平均性能比其基础模型(Base counterparts)高出 10.22%。这表明模型确实习得了可迁移的“进化”策略,而非仅仅记忆特定任务的解法。
- 结合测试时强化学习(Test-time RL):当EFT微调后的模型与测试时强化学习相结合时,其表现进一步提升:
- 在两个圆形打包(Circle-packing)任务中,达到了当前最先进水平(State-of-the-art)。
- 在 Erdős最小重叠问题(Erdős minimum-overlap problem)上,超越了基础模型的性能。
关键要点
- 范式转变:EFT将LLM从单纯的“解生成器”转变为“进化策略学习者”。模型不再只是输出结果,而是学习如何迭代地改进结果。
- 经验复用:通过中期的监督微调,模型学会了跨任务复用搜索经验。这意味着在一个任务上学到的“如何变异”或“如何回溯”的策略,可以应用到完全不同的新任务中。
- 数据驱动:Finch Collection 是一个大规模、多领域的进化轨迹数据集,为训练通用发现代理提供了关键的数据基础。
- 性能提升显著:在22个未见任务上,EFT模型平均性能提升超过10%,证明了其跨任务泛化的有效性。
- 结合RL效果更佳:EFT作为“练习阶段”,为模型提供了初始的策略基础,再结合测试时的强化学习,能够激发出接近或达到SOTA的性能。
- 通用发现代理的雏形:EFT使得LLM能够避免“从零开始”解决新问题,而是基于已有的进化知识进行高效探索,这是构建通用科学发现AI的重要一步。
意义与影响
Evolution Fine-Tuning (EFT) 的提出标志着LLM在复杂问题解决能力上的一个重要里程碑。
首先,它打破了传统LLM在组合优化和科学发现任务中“一次性尝试”的局限。通过让模型学习进化的过程,EFT赋予了模型类似人类科学家或工程师的“试错”和“迭代优化”能力。这种能力对于解决那些没有明确解析解、需要大量探索空间的复杂问题至关重要。
其次,EFT展示了**中期间微调(Mid-training)**在提升模型特定认知能力方面的巨大潜力。不同于传统的指令微调(Instruction Tuning)侧重于语言理解和遵循,EFT侧重于逻辑推理和搜索策略的内化。这种方法论可以推广到其他需要复杂规划或搜索的领域。
最后,随着Finch Collection等高质量进化轨迹数据集的开放,以及EFT范式的验证,未来有望涌现出更多基于LLM的通用科学发现代理。这些代理将能够自主地在数学、物理、计算机科学等领域进行假设生成、实验设计和结果优化,从而加速科学发现的进程。EFT不仅是技术的进步,更是AI辅助科学研究范式的一次重要演进。
