技术博客arXiv cs.AI·7 天前

Laguna M.1/XS.2 技术报告

原标题：Laguna M.1/XS.2 Technical Report

速览

本文介绍了专为长周期智能体编码设计的两款混合专家基础模型Laguna M.1和XS.2。模型基于自研的“模型工厂”系统从头端到端训练，涵盖数据、训练及评估全流程。在SWE-bench等基准测试中，两款模型在各自参数量级下具备与最先进开源模型竞争的实力，且XS.2权重已开源。

AI 深度解读

Laguna M.1/XS.2 技术报告深度解读

背景

在人工智能领域，尤其是大型语言模型（LLM）的发展中，如何高效地构建、训练和评估模型一直是核心挑战。传统的模型开发往往依赖于分散的工具链，导致数据版本管理、训练流程、评估标准和推理部署之间缺乏紧密集成，难以实现工业化规模的迭代。

Laguna M.1 和 Laguna XS.2 是由同一团队推出的两款基于“混合专家”（Mixture-of-Experts, MoE）架构的基础模型，专为长周期、代理式编码（agentic coding）任务设计。这两项工作不仅展示了模型本身的性能，更重点介绍了一个名为“Model Factory”的内部系统。该系统旨在将模型开发转化为一个高度集成、版本化的工业流程，涵盖从数据管理到推理部署的全生命周期。

核心内容

1. 模型架构与规格

Laguna 团队发布了两个不同规模的 MoE 基础模型，均针对代码生成和代理任务进行了优化：

Laguna M.1：
- 总参数量：$225.8$B（2258亿）。
- 激活参数量：每 token 激活 $23.4$B（234亿）。
- 定位：大规模旗舰模型，旨在处理复杂、长上下文的编码代理任务。
Laguna XS.2：
- 总参数量：$33.4$B（334亿）。
- 激活参数量：每 token 激活 $3$B（30亿）。
- 定位：轻量级高效模型，旨在保持高性能的同时降低推理成本。

两款模型均是从头开始（from scratch）端到端训练的，未依赖其他模型的微调。

2. Model Factory：工业化模型开发系统

Laguna 的核心创新之一是其内部开发的 Model Factory 系统。这是一个紧密集成的技术栈，将模型开发的各个环节标准化和工业化。其核心组件包括：

版本化数据（Versioned Data）：确保训练数据的可追溯性和一致性。
训练（Training）：支持大规模分布式训练的框架。
评估（Evaluation）：内置的自动化评估管道。
推理（Inference）：优化后的部署组件。

Model Factory 的设计原则是将模型开发从“手工作坊”转变为“工业流水线”，通过标准化流程提高开发效率、可复现性和稳定性。

3. 端到端训练流程

报告详细描述了从预训练到部署的全过程：

预训练（Pre-training）：
- 数据：使用高质量、版本化的代码和自然语言数据。
- 架构：采用 MoE 架构，通过稀疏激活机制在保持大模型能力的同时降低计算开销。
后训练（Post-training）：
- 包括监督微调（SFT）和人类反馈强化学习（RLHF）等阶段，以对齐模型行为并提升其在特定任务（如代码代理）上的表现。
评估（Evaluation）：
- 在多个基准测试上进行严格评估，确保模型在代码生成、调试和代理任务上的可靠性。
量化（Quantization）：
- 对模型进行量化处理，以进一步降低推理延迟和内存占用，提升部署效率。

4. 性能表现

在代理软件工程（Agentic Software Engineering）和终端基准测试中，Laguna M.1 和 XS.2 展现了与各自参数量级下最先进（SOTA）开源模型相竞争的性能。测试基准包括：

SWE-bench Verified：验证模型解决真实 GitHub 问题的能力。
SWE-bench Multilingual：测试多语言代码处理能力。
SWE-Bench Pro：更复杂的软件工程任务基准。
Terminal-Bench 2.0：评估模型在终端环境中的代理操作能力。

5. 开源许可

Laguna XS.2 的模型权重已根据 Apache 2.0 许可证开源，允许社区自由使用、修改和分发。

关键要点

双模型策略：Laguna 推出了 M.1（225.8B 总参数，23.4B 激活）和 XS.2（33.4B 总参数，3B 激活）两款 MoE 模型，覆盖从高性能到低延迟的不同应用场景。
Model Factory 系统：核心创新在于构建了一个集数据版本管理、训练、评估和推理于一体的工业化模型开发平台，提升了开发效率和可复现性。
端到端训练：两款模型均从头开始训练，涵盖了从预训练数据构建、架构设计、后训练对齐到量化部署的完整流程。
代理编码优化：模型专为长周期、代理式编码任务设计，在 SWE-bench 系列和 Terminal-Bench 2.0 等基准上表现优异，与同级别 SOTA 开源模型竞争力相当。
开源承诺：Laguna XS.2 模型权重以 Apache 2.0 许可证开源，促进了社区对高效代码代理模型的访问和研究。

意义与影响

Laguna M.1/XS.2 技术报告的发布，不仅在模型性能层面展示了 MoE 架构在代码代理任务上的潜力，更在工程实践层面提供了重要的参考。

工业化模型开发的范式：Model Factory 系统强调了将模型开发视为一个工业流程的重要性。通过版本化数据和集成化工具链，团队能够更快速、更可靠地迭代模型，这对于大规模 AI 系统的持续演进具有深远影响。
高效 MoE 模型的实用性：Laguna XS.2 在仅激活 3B 参数的情况下，仍能保持与更大模型竞争的性能，证明了 MoE 架构在平衡性能与成本方面的巨大优势。这为资源受限环境下的部署提供了可行方案。
推动代理软件工程发展：在 SWE-bench 等基准上的优异表现，表明 AI 代理在解决复杂软件工程问题（如代码修复、功能实现）方面正接近或达到实用水平，有望加速软件开发自动化进程。
开源生态的贡献：通过开源 Laguna XS.2，团队为社区提供了一个高效、易用的代码代理模型，有助于降低研究者和开发者的入门门槛，促进相关技术的普及和创新。

总之，Laguna 的工作不仅提供了强大的模型，更展示了一套可复现、可扩展的模型开发方法论，为 AI 基础设施的建设提供了宝贵经验。

查看原文 →arxiv.org