← 返回信息流
技术博客arXiv cs.AI·7 天前

Laguna M.1/XS.2 技术报告

原标题:Laguna M.1/XS.2 Technical Report

速览

本文介绍了专为长周期智能体编码设计的两款混合专家基础模型Laguna M.1和XS.2。模型基于自研的“模型工厂”系统从头端到端训练,涵盖数据、训练及评估全流程。在SWE-bench等基准测试中,两款模型在各自参数量级下具备与最先进开源模型竞争的实力,且XS.2权重已开源。

AI 深度解读

Laguna M.1/XS.2 技术报告深度解读

背景

在人工智能领域,尤其是大型语言模型(LLM)的发展中,如何高效地构建、训练和评估模型一直是核心挑战。传统的模型开发往往依赖于分散的工具链,导致数据版本管理、训练流程、评估标准和推理部署之间缺乏紧密集成,难以实现工业化规模的迭代。

Laguna M.1 和 Laguna XS.2 是由同一团队推出的两款基于“混合专家”(Mixture-of-Experts, MoE)架构的基础模型,专为长周期、代理式编码(agentic coding)任务设计。这两项工作不仅展示了模型本身的性能,更重点介绍了一个名为“Model Factory”的内部系统。该系统旨在将模型开发转化为一个高度集成、版本化的工业流程,涵盖从数据管理到推理部署的全生命周期。

核心内容

1. 模型架构与规格

Laguna 团队发布了两个不同规模的 MoE 基础模型,均针对代码生成和代理任务进行了优化:

  • Laguna M.1
    • 总参数量:$225.8$B(2258亿)。
    • 激活参数量:每 token 激活 $23.4$B(234亿)。
    • 定位:大规模旗舰模型,旨在处理复杂、长上下文的编码代理任务。
  • Laguna XS.2
    • 总参数量:$33.4$B(334亿)。
    • 激活参数量:每 token 激活 $3$B(30亿)。
    • 定位:轻量级高效模型,旨在保持高性能的同时降低推理成本。

两款模型均是从头开始(from scratch)端到端训练的,未依赖其他模型的微调。

2. Model Factory:工业化模型开发系统

Laguna 的核心创新之一是其内部开发的 Model Factory 系统。这是一个紧密集成的技术栈,将模型开发的各个环节标准化和工业化。其核心组件包括:

  • 版本化数据(Versioned Data):确保训练数据的可追溯性和一致性。
  • 训练(Training):支持大规模分布式训练的框架。
  • 评估(Evaluation):内置的自动化评估管道。
  • 推理(Inference):优化后的部署组件。

Model Factory 的设计原则是将模型开发从“手工作坊”转变为“工业流水线”,通过标准化流程提高开发效率、可复现性和稳定性。

3. 端到端训练流程

报告详细描述了从预训练到部署的全过程:

  • 预训练(Pre-training)
    • 数据:使用高质量、版本化的代码和自然语言数据。
    • 架构:采用 MoE 架构,通过稀疏激活机制在保持大模型能力的同时降低计算开销。
  • 后训练(Post-training)
    • 包括监督微调(SFT)和人类反馈强化学习(RLHF)等阶段,以对齐模型行为并提升其在特定任务(如代码代理)上的表现。
  • 评估(Evaluation)
    • 在多个基准测试上进行严格评估,确保模型在代码生成、调试和代理任务上的可靠性。
  • 量化(Quantization)
    • 对模型进行量化处理,以进一步降低推理延迟和内存占用,提升部署效率。

4. 性能表现

在代理软件工程(Agentic Software Engineering)和终端基准测试中,Laguna M.1 和 XS.2 展现了与各自参数量级下最先进(SOTA)开源模型相竞争的性能。测试基准包括:

  • SWE-bench Verified:验证模型解决真实 GitHub 问题的能力。
  • SWE-bench Multilingual:测试多语言代码处理能力。
  • SWE-Bench Pro:更复杂的软件工程任务基准。
  • Terminal-Bench 2.0:评估模型在终端环境中的代理操作能力。

5. 开源许可

Laguna XS.2 的模型权重已根据 Apache 2.0 许可证开源,允许社区自由使用、修改和分发。

关键要点

  • 双模型策略:Laguna 推出了 M.1(225.8B 总参数,23.4B 激活)和 XS.2(33.4B 总参数,3B 激活)两款 MoE 模型,覆盖从高性能到低延迟的不同应用场景。
  • Model Factory 系统:核心创新在于构建了一个集数据版本管理、训练、评估和推理于一体的工业化模型开发平台,提升了开发效率和可复现性。
  • 端到端训练:两款模型均从头开始训练,涵盖了从预训练数据构建、架构设计、后训练对齐到量化部署的完整流程。
  • 代理编码优化:模型专为长周期、代理式编码任务设计,在 SWE-bench 系列和 Terminal-Bench 2.0 等基准上表现优异,与同级别 SOTA 开源模型竞争力相当。
  • 开源承诺:Laguna XS.2 模型权重以 Apache 2.0 许可证开源,促进了社区对高效代码代理模型的访问和研究。

意义与影响

Laguna M.1/XS.2 技术报告的发布,不仅在模型性能层面展示了 MoE 架构在代码代理任务上的潜力,更在工程实践层面提供了重要的参考。

  1. 工业化模型开发的范式:Model Factory 系统强调了将模型开发视为一个工业流程的重要性。通过版本化数据和集成化工具链,团队能够更快速、更可靠地迭代模型,这对于大规模 AI 系统的持续演进具有深远影响。
  2. 高效 MoE 模型的实用性:Laguna XS.2 在仅激活 3B 参数的情况下,仍能保持与更大模型竞争的性能,证明了 MoE 架构在平衡性能与成本方面的巨大优势。这为资源受限环境下的部署提供了可行方案。
  3. 推动代理软件工程发展:在 SWE-bench 等基准上的优异表现,表明 AI 代理在解决复杂软件工程问题(如代码修复、功能实现)方面正接近或达到实用水平,有望加速软件开发自动化进程。
  4. 开源生态的贡献:通过开源 Laguna XS.2,团队为社区提供了一个高效、易用的代码代理模型,有助于降低研究者和开发者的入门门槛,促进相关技术的普及和创新。

总之,Laguna 的工作不仅提供了强大的模型,更展示了一套可复现、可扩展的模型开发方法论,为 AI 基础设施的建设提供了宝贵经验。

查看原文 →arxiv.org