← 返回信息流
技术博客arXiv cs.AI·3 小时前

EvoOptiGraph:基于图结构生成的弱项驱动优化建模框架

原标题:EvoOptiGraph: Weakness-Driven Coevolution via Graph-Based Structural Generation for Optimization Modeling

速览

针对大语言模型在自动化优化建模中面临的训练数据缺乏结构多样性及生成流程静态孤立等挑战,研究提出EvoOptiGraph框架。该框架将混合整数线性规划表示为属性二分图,利用保持有效性的进化算子生成结构多样的实例,并通过确定性编译和验证反向翻译转化为求解器代码与自然语言。实验表明,该框架在准确性、可执行性和泛化能力上显著优于现有基线,证明了针对弱点的数据-模型协同进化策略的有效性。

AI 深度解读

EvoOptiGraph:基于图结构生成的弱点驱动协同进化优化建模框架

背景

利用大型语言模型(LLMs)从自然语言自动构建优化模型(Optimization Modeling)是一项极具挑战性的任务,旨在降低运筹优化领域的技术门槛。然而,当前这一领域面临着两个核心痛点:

  1. 训练语料库缺乏结构多样性:现有的训练数据往往局限于特定的问题类型或结构,导致模型在面对复杂或新颖的混合整数线性规划(MILP)问题时泛化能力不足。
  2. 数据生成流水线与模型学习脱节:传统的数据生成过程是静态的,无法根据模型在实际训练或推理中暴露出的具体弱点进行动态调整。这种“开环”状态限制了模型性能的进一步提升。

为了解决上述问题,研究人员提出了 EvoOptiGraph 框架。该框架的核心创新在于引入了一种“弱点驱动”(Weakness-Driven)的协同进化机制,实现了数据与模型的动态交互和共同进化。

核心内容

EvoOptiGraph 是一个新颖的框架,它通过基于图的结构性生成技术,让数据和模型在模型弱点的驱动下进行协同进化。其工作流程和核心机制如下:

1. 结构化表示与进化生成

EvoOptiGraph 将每个混合整数线性规划(MILP)问题表示为带属性的二部图(Attributed Bipartite Graph)。这种表示方法能够保留问题的拓扑结构和属性信息。在此基础上,框架应用了保持有效性的进化算子(Validity-Preserving Evolutionary Operators),对图结构进行操作,从而生成结构多样化的新实例。这些进化后的图结构不仅保持了数学上的有效性,还极大地丰富了数据的分布。

2. 确定性与验证转换

生成的进化图通过以下两种方式转换回模型可学习的格式:

  • 求解器代码:通过确定性编译(Deterministic Compilation)将图结构转换为可执行的求解器代码。
  • 自然语言:通过经过验证的反向翻译(Verified Back-translation)将图结构还原为自然语言描述。

3. 两阶段训练闭环

模型的训练过程分为两个阶段,形成一个持续更新训练分布的闭环:

  • 第一阶段:监督微调(SFT):在初始数据集上对模型进行监督微调,建立基础能力。
  • 第二阶段:可验证奖励的强化学习(RLVR):这是协同进化的核心。利用从图中衍生的弱点信号(Weakness Signals)来指导新实例的生成。这些新实例专门针对模型在 SFT 阶段或早期推理中出现的失败案例。通过强化学习,模型学会如何更好地处理这些弱点,而新产生的数据又反过来用于更新训练分布。

4. 协同进化机制

EvoOptiGraph 形成了一个闭环:模型在解决优化建模任务时暴露出的弱点,被转化为图结构的进化指令,生成针对性的训练数据;这些数据经过验证后,再次用于训练模型。这种 targeted data-model coevolution(针对性数据-模型协同进化)策略确保了模型始终在最具挑战性的样本上进行学习。

关键要点

  • 弱点驱动的数据生成:不同于传统的静态数据收集,EvoOptiGraph 利用模型在训练过程中暴露出的具体弱点,动态生成针对性的训练实例,实现了“因材施教”。
  • 图结构表示 MILP:将混合整数线性规划问题建模为带属性的二部图,使得利用图神经网络或图进化算法进行结构化生成成为可能,同时保留了问题的语义和结构完整性。
  • 有效性保持的进化算子:引入的进化算子确保生成的图结构始终对应合法的数学规划问题,避免了生成无效或无意义的数据。
  • RLVR 强化学习框架:采用可验证奖励的强化学习(RLVR),结合确定性编译和验证反向翻译,确保生成数据的质量和可执行性。
  • 闭环训练流程:SFT 与 RLVR 相结合,通过弱点信号不断迭代更新训练分布,形成数据与模型共同进化的良性循环。

意义与影响

EvoOptiGraph 在六个公开数据集上的实证结果显示,其在准确性可执行性泛化能力方面显著优于更大的通用模型、智能体(Agentic)方法以及专门的基线模型。

这一成果具有重要的理论和实践意义:

  1. 验证了协同进化的有效性:研究证明,针对特定任务(如优化建模)的、由弱点驱动的数据-模型协同进化,是提升 LLMs 性能的有效策略。这为其他复杂领域(如代码生成、数学推理)的数据增强提供了新的思路。
  2. 提升了自动化建模的可靠性:通过确保生成数据的结构多样性和有效性,EvoOptiGraph 显著提高了从自然语言到优化模型转换的准确率,降低了人工校验的成本。
  3. 推动了 LLM 在垂直领域的深度应用:该框架展示了如何利用结构化数据和强化学习,使通用 LLM 在高度专业化的运筹优化领域达到甚至超越专用模型的性能,为 LLM 在科学计算和工程优化中的应用开辟了新的路径。

总之,EvoOptiGraph 不仅是一个新的算法框架,更代表了一种从“静态数据训练”向“动态协同进化”转变的新范式,对于推动 LLMs 在复杂逻辑和结构化任务中的能力边界具有深远影响。

查看原文 →arxiv.org