技术博客arXiv cs.CL·2 小时前

进化微调让大模型跨371项任务复用搜索经验

原标题：Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks

速览

研究人员提出进化微调（EFT）范式，将进化搜索轨迹转化为监督信号，教导大模型在不同任务间复用进化能力。通过构建涵盖371项优化任务的Finch数据集，微调后的2B至9B参数模型在22个未见任务上平均超越基线模型10.22%。结合测试时强化学习，该模型在圆 packing 和 Erdős 最小重叠问题上达到或超越最先进水平。

AI 深度解读

Evolution Fine-Tuning：在371个优化任务中学习“发现”

背景

近年来，将大型语言模型（LLMs）整合到进化搜索（Evolutionary Search）框架中，已在多个复杂领域取得了突破性进展。这些领域包括开放数学猜想、GPU内核设计、科学定律发现以及组合谜题求解等。现有的方法通常依赖于“搜索脚手架”（Search Scaffolds），即由外部程序或特定算法控制搜索过程，而LLM仅作为生成候选解的组件。

然而，这种传统范式存在一个显著缺陷：每次面对新问题或新任务时，模型都必须从头开始探索。这意味着在搜索过程中积累的宝贵经验——例如知道如何变异、何时回溯、如何迭代优化解决方案——一旦当前任务结束或模型尝试失败，这些能力就会被丢弃，无法被模型内化或复用。

这就引出了一个长期未被充分探讨的问题：LLM本身是否具备习得这种“迭代进化”能力的可能性？如果模型能够学会如何像进化算法一样思考，并在不同任务间迁移这种能力，将会极大地提升其作为通用发现代理（General-purpose Discovery Agents）的潜力。

核心内容

为了解决上述问题，研究人员提出了 Evolution Fine-Tuning (EFT)，这是一种旨在教导LLM跨任务进化解决方案的中期训练（Mid-training）范式。

1. 方法论：将进化轨迹转化为监督信号

EFT的核心思想是将进化搜索的过程转化为可用于监督学习的数据。具体来说，它不直接训练模型生成最终答案，而是训练模型理解并执行“进化”这一过程。通过构建包含搜索轨迹的数据集，模型学习如何在迭代中改进解决方案，包括决定变异的部分、变异的方式以及何时进行回溯。

2. 数据集：Finch Collection

为了支持EFT的训练，研究团队构建了 Finch Collection 数据集。该数据集具有以下特点：

规模：包含15.6万个（156K）进化搜索轨迹。
覆盖范围：跨越10个不同的领域，涵盖371个优化任务。
任务类型：包括数学猜想证明、代码优化、科学发现等多样化的复杂问题。

3. 实验设置与模型

研究团队在参数量从2B到9B不等的开源LLM上进行了微调实验。这些模型经过EFT范式训练后，被评估其在未见任务上的泛化能力。

4. 实证结果

跨任务泛化能力：在22个保留测试集（Held-out tasks）上，经过EFT微调的模型平均性能比其基础模型（Base counterparts）高出 10.22%。这表明模型确实习得了可迁移的“进化”策略，而非仅仅记忆特定任务的解法。
结合测试时强化学习（Test-time RL）：当EFT微调后的模型与测试时强化学习相结合时，其表现进一步提升：
- 在两个圆形打包（Circle-packing）任务中，达到了当前最先进水平（State-of-the-art）。
- 在 Erdős最小重叠问题（Erdős minimum-overlap problem）上，超越了基础模型的性能。

关键要点

范式转变：EFT将LLM从单纯的“解生成器”转变为“进化策略学习者”。模型不再只是输出结果，而是学习如何迭代地改进结果。
经验复用：通过中期的监督微调，模型学会了跨任务复用搜索经验。这意味着在一个任务上学到的“如何变异”或“如何回溯”的策略，可以应用到完全不同的新任务中。
数据驱动：Finch Collection 是一个大规模、多领域的进化轨迹数据集，为训练通用发现代理提供了关键的数据基础。
性能提升显著：在22个未见任务上，EFT模型平均性能提升超过10%，证明了其跨任务泛化的有效性。
结合RL效果更佳：EFT作为“练习阶段”，为模型提供了初始的策略基础，再结合测试时的强化学习，能够激发出接近或达到SOTA的性能。
通用发现代理的雏形：EFT使得LLM能够避免“从零开始”解决新问题，而是基于已有的进化知识进行高效探索，这是构建通用科学发现AI的重要一步。

意义与影响

Evolution Fine-Tuning (EFT) 的提出标志着LLM在复杂问题解决能力上的一个重要里程碑。

首先，它打破了传统LLM在组合优化和科学发现任务中“一次性尝试”的局限。通过让模型学习进化的过程，EFT赋予了模型类似人类科学家或工程师的“试错”和“迭代优化”能力。这种能力对于解决那些没有明确解析解、需要大量探索空间的复杂问题至关重要。

其次，EFT展示了**中期间微调（Mid-training）**在提升模型特定认知能力方面的巨大潜力。不同于传统的指令微调（Instruction Tuning）侧重于语言理解和遵循，EFT侧重于逻辑推理和搜索策略的内化。这种方法论可以推广到其他需要复杂规划或搜索的领域。

最后，随着Finch Collection等高质量进化轨迹数据集的开放，以及EFT范式的验证，未来有望涌现出更多基于LLM的通用科学发现代理。这些代理将能够自主地在数学、物理、计算机科学等领域进行假设生成、实验设计和结果优化，从而加速科学发现的进程。EFT不仅是技术的进步，更是AI辅助科学研究范式的一次重要演进。

查看原文 →arxiv.org