AI 资讯Hacker News·5 天前

Liquid AI 公布基于 38T 数据训练的 8B-A1B MoE 模型

原标题：Liquid AI reveals 8B-A1B MoE trained on 38T

速览

Liquid AI 公司近日公开了其最新研发的 8B-A1B 混合专家（MoE）大语言模型。该模型在总计 38 万亿个令牌（tokens）的数据集上进行了训练。这一成果展示了 Liquid AI 在高效利用大规模数据进行模型训练方面的最新进展。

AI 深度解读

背景

Liquid AI 于近期发布了其最新边缘端大语言模型 LFM2.5-8B-A1B。该模型是基于其 2025 年 10 月发布的 LFM2-8B-A1B 进行的重大迭代升级。随着 AI 应用从云端向终端设备（On-device）迁移的趋势日益明显，如何在保持高性能的同时，让模型在消费级硬件（如笔记本电脑、手机）上高效运行，成为行业焦点。

LFM2.5-8B-A1B 旨在解决这一痛点，它专为在消费级硬件上进行快速、可靠的工具调用（Tool Calling）而设计。通过扩大上下文窗口、增加预训练数据量以及引入大规模强化学习，该模型不仅提升了多语言处理能力，还显著增强了在本地设备上进行复杂任务规划和智能体（Agent）操作的能力。

核心内容

模型架构与训练升级

LFM2.5-8B-A1B 在架构上延续了前代的混合专家（MoE）、分组查询注意力（GQA）以及门控短卷积块（Gated Short Convolution Blocks）的组合，但在关键维度上进行了大幅扩展：

上下文窗口扩展：上下文长度从 32,768 tokens 扩展至 128,000 tokens。这使得模型能够处理更长的文档并进行更长周期的推理。
预训练数据规模：预训练 token 数量从 12T 增加至 38T，大幅提升了模型的知识储备和推理能力。
词汇表扩容：词汇表大小从 65,536 翻倍至 128,000。这一改动旨在提高非拉丁语系语言的分词效率。通过在不重新训练模型的情况下扩展现有分词器，新词汇被分解为原有子词序列，并通过两阶段适应（嵌入层训练+全模型继续预训练）恢复质量。
推理模式转变：与前代不同，LFM2.5-8B-A1B 是一个纯推理模型（Reasoning-only model）。它在给出最终答案前会生成显式的思维链（Chain of Thought）。由于 MoE 模型通常处于计算受限状态，激活参数较少使得每个推理 token 的成本更低，从而在不牺牲速度的情况下显著提升质量。

关键技术改进

为了优化模型在边缘端的性能，Liquid AI 实施了多项针对性改进：

多语言效率提升：新分词器在印地语、泰语、越南语、印尼语和阿拉伯语等非拉丁语系语言中表现出显著的压缩增益（chars/token 指标更高）。
消除“死循环”（Doom Loops）：在长推理轨迹中，模型容易陷入重复循环。Liquid AI 引入了目标偏好优化阶段，识别并重新分配触发循环行为的 token 概率，同时在强化学习（RL）阶段加入轻量级奖励机制，抑制“Wait...”等常见重启词的过度使用。
减少幻觉（Hallucinations）：针对边缘模型参数少、知识容量有限的问题，引入了基于 avg@k 的强化学习奖励机制。该机制鼓励模型在超出可靠知识范围时选择“拒绝回答”，从而划定更清晰的知识边界，增强不确定性表达。

性能基准测试

LFM2.5-8B-A1B 在知识、指令遵循、数学和智能体工作流等多个基准测试中表现出色：

指令遵循与智能体任务：在指令遵循基准测试中，其表现优于许多参数规模更大的密集模型和 MoE 模型。在 Tau2-Telecom 等智能体基准测试中表现尤为强劲，接近 Gemma 4-26B 等大模型的性能，但激活参数量仅为后者的极小部分。
推理速度：
- CPU 推理：在 Apple M5 Max 芯片上解码速度达到 253 tokens/s，在 Ryzen AI Max+ 395 上达到 146 tokens/s，且内存占用低于 6GB。即使在手机上也能保持约 30 tokens/s 的速度，实现即时响应。
- GPU 推理：在单张 NVIDIA H100 SXM5 GPU 上，高并发场景下输出吞吐量达到 18.5K tokens/s，单日可处理超过 16 亿 tokens。

生态系统支持

LFM2.5-8B-A1B 提供首日支持（Day-one support）于主流推理框架和平台：

端侧部署：LEAP（Liquid 的 iOS/Android 边缘 AI 平台）、llama.cpp（GGUF 格式）、MLX（Apple Silicon 优化）。
服务端/高性能推理：vLLM、SGLang（均支持 GPU 加速生产级吞吐）。
跨平台：ONNX 格式支持 diverse accelerators。

此外，Liquid AI 还开源了桌面智能体演示 LocalCowork。该演示展示了在单台笔记本电脑上，无需云端 API 或密钥，仅通过本地模型即可连接 13 个 MCP 服务器上的 67 个工具，实现交互式工具调度（提问-建议-确认-运行），且所有数据保留在本地。

关键要点

模型名称：LFM2.5-8B-A1B（包含 Base 和 Post-trained 两个版本）。
核心定位：面向消费级硬件的边缘端智能体模型，强调快速、可靠的工具调用和本地隐私保护。
主要升级：
- 上下文窗口扩大至 128K tokens。
- 预训练数据量增至 38T tokens。
- 词汇表翻倍至 128K，显著提升非拉丁语系语言效率。
- 引入显式思维链推理，提升复杂任务处理能力。
性能优势：
- 在 CPU 和 GPU 推理速度上均处于同尺寸模型领先地位。
- 在指令遵循和智能体任务中，性能媲美更大规模的 MoE 模型（如 Gemma 4-26B）。
- 有效减少长推理中的死循环和幻觉问题。
开源与部署：
- 权重开源，支持 Hugging Face 下载。
- 原生支持 llama.cpp、MLX、vLLM、SGLang 等主流框架。
- 提供 LocalCowork 开源演示，展示全本地、无云依赖的智能体工作流。

意义与影响

LFM2.5-8B-A1B 的发布标志着端侧 AI 智能体（On-device Agents）向实用化迈出了关键一步。

隐私与安全的本地化：通过支持在消费级硬件上运行复杂的智能体工作流，用户无需将数据发送至云端，解决了企业和个人用户对数据隐私的担忧。LocalCowork 演示证明了在本地完成复杂工具调用的可行性。
降低 AI 使用门槛：该模型在普通笔记本电脑甚至手机上即可流畅运行，使得高性能 AI 能力不再局限于拥有昂贵 GPU 集群的大型机构，促进了 AI 技术的普惠化。
效率与性能的平衡：通过 MoE 架构和推理优化，Liquid AI 证明了小参数模型在特定任务（如工具调用、指令遵循）上可以超越大参数密集模型。这种“压缩性能”策略为未来边缘 AI 的发展提供了重要的技术路径。
生态兼容性：对 llama.cpp、MLX、vLLM 等主流框架的全面支持，降低了开发者集成和部署该模型的难度，有助于加速 AI 应用在不同硬件平台上的落地。

总之，LFM2.5-8B-A1B 不仅是一个技术产品，更是 Liquid AI 推动“AI 无处不在”愿景的具体实践，预示着未来 AI 将更加紧密地融入个人设备和日常工作中。

查看原文 →liquid.ai