AI 资讯Hacker News·3 小时前

系统优化应纳入 CI/CD 流程

原标题：Systems optimization should be part of CI/CD

速览

本文探讨了在现代软件开发中，将系统优化作为持续集成和持续交付（CI/CD）流程的一部分的重要性。通过早期集成优化措施，团队可以更早地发现性能瓶颈，从而降低修复成本并提升软件质量。这种实践有助于构建更高效、更可靠的软件交付管道。

AI 深度解读

Systems optimization should be part of CI/CD：以 LEVI 框架重塑 AI 驱动的系统算法优化

背景

在系统优化领域，AI 驱动的研究（AI-Driven Research for Systems, ADRS）正逐渐成为主流。诸如 OpenEvolve 和 GEPA 等算法发现框架已经证明，利用 AI 可以自动为现实世界的系统问题发现更优的算法。然而，当前的 ADRS 框架面临着一个致命的瓶颈：成本过高。

现有的框架通常依赖最强大、最昂贵的大型闭源 LLM（如 GPT-4, Claude Opus 等）来处理每一步的突变和优化。这种高昂的成本不仅提高了研究门槛，使得大多数研究人员难以负担此类实验，更严重的是，它限制了 ADRS 的应用场景。如果每一次优化都代价高昂，ADRS 就只能作为一种“一次性”的研究手段，用于在特定基准测试中产生单一的强大结果，而无法适应工业界对持续、定制化优化的需求。

未来的系统优化不应止步于基准测试的胜利，而应实现针对部署环境的具体工作负载、硬件配置和服务等级目标（SLOs）的量身定制，并能随着这些条件的变化而动态适应。LEVI 框架正是为了解决这一痛点而生，旨在通过降低算法发现的成本，推动 ADRS 从“一次性研究”向“持续优化”转型。

核心内容

1. 从“一次性结果”到“持续 CI/CD 优化”

文章指出，现有的 ADRS 应用模式类似于传统的系统研究论文：研究人员针对特定问题改进算法，然后由工业界移植并适配。然而，这种模式效率低下且缺乏灵活性。

LEVI 倡导将 ADRS 视为一种更高级形式的 CI/CD（持续集成/持续部署）。在这种模式下：

用户定义评分函数和部署环境。
系统不再仅仅自动修复代码风格或格式，而是自动优化算法本身。
当资源（如新增 GPU）或优先级（不同的 SLOs）发生变化时，相应的算法会自动重新优化。

例如，一个运行多区域云调度器的企业，目前可能与其他企业使用相同的通用算法。借助低成本 ADRS，该企业可以每晚根据实际流量模式、实际 SLOs 和实际硬件组合重新优化算法，从而榨取系统的最大性能。

2. LEVI 框架的核心架构：LEVI (LLM-Based Evolutionary Framework)

LEVI 是一个基于 LLM 的进化框架，其核心设计理念是**“投资搜索工具（Harness），而非盲目追求最强模型”**。它通过以下两个关键组件实现了在大幅降低成本的同时，获得优于基线 3–7 倍的 ADRS 结果：

A. 分层模型分配 (Stratified Model Allocation)

LEVI 打破了“每一步都使用最强模型”的惯例，根据任务需求对模型能力进行分层分配：

小模型负责大部分突变：使用较小、较便宜的模型（如 QWEN 30B）处理绝大多数的局部优化和增量改进。虽然小模型的预训练分布较窄，创意有限，但其产生的解决方案数量巨大，在预算有限时，其吞吐量优势往往超过大模型的质量优势。
大模型负责范式转移：大型模型仅被保留用于罕见的“范式转移”（Paradigm Shifts），即提出结构上完全不同的新算法方向。
非对称性利用：LEVI 认识到提出全新算法方向需要广博的知识和创造性推理，而调整常数、重排操作或微调边缘情况则需求较低。因此，它将小模型用于广度与吞吐量，将大模型用于创造性飞跃。

B. 改进的多样性维护 (Improved Diversity Maintenance)

现有框架往往依赖大模型庞大的输出空间来隐式维持多样性，或者在多样性崩溃后通过增加复杂性（如拒绝采样、使用嵌入模型）来补救。LEVI 认为这是基础薄弱的表现，因此提出了一种统一的多样性维持机制：

结合结构与行为维度：现有框架通常只关注单一维度。OpenEvolve 关注代码结构（如代码长度），GEPA 关注基于帕累托前沿的实例性能权衡。LEVI 将两者结合，构建一个单一的行为描述符。
指纹映射：每个解决方案都被映射到一个“指纹”向量，该向量结合了代码结构特征（如循环次数，而不仅仅是代码长度）和实际行为特征（如在特定子集 x 上的性能）。
防止收敛：通过同时监控结构多样性和行为多样性，LEVI 确保搜索档案不会坍缩到单一解决方案家族中，从而在依赖低成本小模型时，依然能保持搜索空间的广阔性。

关键要点

成本是 ADRS 普及的主要瓶颈：当前依赖昂贵闭源 LLM 的框架限制了 ADRS 从“一次性基准测试”向“持续定制化优化”的演进。
LEVI 的成本优势：LEVI 框架在主要基准测试比较中，比基线方法便宜 3–7 倍，同时产生了更强的 ADRS 结果。
分层模型策略：
- 小模型（如 QWEN 30B）：处理大多数突变，负责局部优化和增量改进，提供高吞吐量。
- 大模型：仅用于罕见的范式转移，负责提出结构上截然不同的新算法。
双重多样性维持：LEVI 通过结合代码结构特征（如循环次数）和实际行为特征（如性能表现）来构建解决方案指纹，有效防止搜索档案收敛，弥补了小模型输出空间较小的缺陷。
ADRS 的未来形态：ADRS 应被视为一种高级的 CI/CD 工具，能够根据实时的工作负载、硬件和 SLOs 自动、持续地优化算法，实现真正的“量身定制”。

意义与影响

LEVI 框架的提出标志着 AI 驱动的系统优化进入了一个新的阶段：从“精英主义”走向“普惠与持续”。

降低研究与应用门槛：通过大幅降低对昂贵闭源模型的依赖，LEVI 使得更多研究人员和企业能够负担得起算法自动化发现实验，促进了开源社区和工业界的广泛参与。
推动系统优化的自动化与常态化：LEVI 证明了低成本 ADRS 的可行性，使得将算法优化集成到 CI/CD 流程中成为可能。这意味着系统性能不再是一次性调优的结果，而是一个动态适应环境变化的持续过程。
重新定义模型使用范式：LEVI 的“分层模型分配”策略为 LLM 在复杂推理任务中的应用提供了新思路。它表明，在资源受限的情况下，通过合理的任务分解和模型能力匹配，可以用较小的模型组合达到甚至超越单一超大模型的效果。
提升系统效率与资源利用率：对于云服务商和企业而言，能够根据实际流量和硬件配置每晚重新优化算法，意味着可以更精细地匹配资源与需求，从而在相同的硬件投入下获得更高的性能，或在保证性能的前提下降低硬件成本。

总之，LEVI 不仅是一个技术框架，更是一种方法论的转变。它强调了在 AI 驱动的研究中，效率、持续性和适应性与绝对性能同样重要，甚至更为关键。

查看原文 →ucbskyadrs.github.io