← 返回信息流
AI 资讯Hacker News·5 天前

Liquid AI 公布基于 38T 数据训练的 8B-A1B MoE 模型

原标题:Liquid AI reveals 8B-A1B MoE trained on 38T

速览

Liquid AI 公司近日公开了其最新研发的 8B-A1B 混合专家(MoE)大语言模型。该模型在总计 38 万亿个令牌(tokens)的数据集上进行了训练。这一成果展示了 Liquid AI 在高效利用大规模数据进行模型训练方面的最新进展。

AI 深度解读

背景

Liquid AI 于近期发布了其最新边缘端大语言模型 LFM2.5-8B-A1B。该模型是基于其 2025 年 10 月发布的 LFM2-8B-A1B 进行的重大迭代升级。随着 AI 应用从云端向终端设备(On-device)迁移的趋势日益明显,如何在保持高性能的同时,让模型在消费级硬件(如笔记本电脑、手机)上高效运行,成为行业焦点。

LFM2.5-8B-A1B 旨在解决这一痛点,它专为在消费级硬件上进行快速、可靠的工具调用(Tool Calling)而设计。通过扩大上下文窗口、增加预训练数据量以及引入大规模强化学习,该模型不仅提升了多语言处理能力,还显著增强了在本地设备上进行复杂任务规划和智能体(Agent)操作的能力。

核心内容

模型架构与训练升级

LFM2.5-8B-A1B 在架构上延续了前代的混合专家(MoE)、分组查询注意力(GQA)以及门控短卷积块(Gated Short Convolution Blocks)的组合,但在关键维度上进行了大幅扩展:

  1. 上下文窗口扩展:上下文长度从 32,768 tokens 扩展至 128,000 tokens。这使得模型能够处理更长的文档并进行更长周期的推理。
  2. 预训练数据规模:预训练 token 数量从 12T 增加至 38T,大幅提升了模型的知识储备和推理能力。
  3. 词汇表扩容:词汇表大小从 65,536 翻倍至 128,000。这一改动旨在提高非拉丁语系语言的分词效率。通过在不重新训练模型的情况下扩展现有分词器,新词汇被分解为原有子词序列,并通过两阶段适应(嵌入层训练+全模型继续预训练)恢复质量。
  4. 推理模式转变:与前代不同,LFM2.5-8B-A1B 是一个纯推理模型(Reasoning-only model)。它在给出最终答案前会生成显式的思维链(Chain of Thought)。由于 MoE 模型通常处于计算受限状态,激活参数较少使得每个推理 token 的成本更低,从而在不牺牲速度的情况下显著提升质量。

关键技术改进

为了优化模型在边缘端的性能,Liquid AI 实施了多项针对性改进:

  • 多语言效率提升:新分词器在印地语、泰语、越南语、印尼语和阿拉伯语等非拉丁语系语言中表现出显著的压缩增益(chars/token 指标更高)。
  • 消除“死循环”(Doom Loops):在长推理轨迹中,模型容易陷入重复循环。Liquid AI 引入了目标偏好优化阶段,识别并重新分配触发循环行为的 token 概率,同时在强化学习(RL)阶段加入轻量级奖励机制,抑制“Wait...”等常见重启词的过度使用。
  • 减少幻觉(Hallucinations):针对边缘模型参数少、知识容量有限的问题,引入了基于 avg@k 的强化学习奖励机制。该机制鼓励模型在超出可靠知识范围时选择“拒绝回答”,从而划定更清晰的知识边界,增强不确定性表达。

性能基准测试

LFM2.5-8B-A1B 在知识、指令遵循、数学和智能体工作流等多个基准测试中表现出色:

  • 指令遵循与智能体任务:在指令遵循基准测试中,其表现优于许多参数规模更大的密集模型和 MoE 模型。在 Tau2-Telecom 等智能体基准测试中表现尤为强劲,接近 Gemma 4-26B 等大模型的性能,但激活参数量仅为后者的极小部分。
  • 推理速度
    • CPU 推理:在 Apple M5 Max 芯片上解码速度达到 253 tokens/s,在 Ryzen AI Max+ 395 上达到 146 tokens/s,且内存占用低于 6GB。即使在手机上也能保持约 30 tokens/s 的速度,实现即时响应。
    • GPU 推理:在单张 NVIDIA H100 SXM5 GPU 上,高并发场景下输出吞吐量达到 18.5K tokens/s,单日可处理超过 16 亿 tokens。

生态系统支持

LFM2.5-8B-A1B 提供首日支持(Day-one support)于主流推理框架和平台:

  • 端侧部署:LEAP(Liquid 的 iOS/Android 边缘 AI 平台)、llama.cpp(GGUF 格式)、MLX(Apple Silicon 优化)。
  • 服务端/高性能推理:vLLM、SGLang(均支持 GPU 加速生产级吞吐)。
  • 跨平台:ONNX 格式支持 diverse accelerators。

此外,Liquid AI 还开源了桌面智能体演示 LocalCowork。该演示展示了在单台笔记本电脑上,无需云端 API 或密钥,仅通过本地模型即可连接 13 个 MCP 服务器上的 67 个工具,实现交互式工具调度(提问-建议-确认-运行),且所有数据保留在本地。

关键要点

  • 模型名称:LFM2.5-8B-A1B(包含 Base 和 Post-trained 两个版本)。
  • 核心定位:面向消费级硬件的边缘端智能体模型,强调快速、可靠的工具调用和本地隐私保护。
  • 主要升级
    • 上下文窗口扩大至 128K tokens。
    • 预训练数据量增至 38T tokens。
    • 词汇表翻倍至 128K,显著提升非拉丁语系语言效率。
    • 引入显式思维链推理,提升复杂任务处理能力。
  • 性能优势
    • 在 CPU 和 GPU 推理速度上均处于同尺寸模型领先地位。
    • 在指令遵循和智能体任务中,性能媲美更大规模的 MoE 模型(如 Gemma 4-26B)。
    • 有效减少长推理中的死循环和幻觉问题。
  • 开源与部署
    • 权重开源,支持 Hugging Face 下载。
    • 原生支持 llama.cpp、MLX、vLLM、SGLang 等主流框架。
    • 提供 LocalCowork 开源演示,展示全本地、无云依赖的智能体工作流。

意义与影响

LFM2.5-8B-A1B 的发布标志着端侧 AI 智能体(On-device Agents)向实用化迈出了关键一步。

  1. 隐私与安全的本地化:通过支持在消费级硬件上运行复杂的智能体工作流,用户无需将数据发送至云端,解决了企业和个人用户对数据隐私的担忧。LocalCowork 演示证明了在本地完成复杂工具调用的可行性。
  2. 降低 AI 使用门槛:该模型在普通笔记本电脑甚至手机上即可流畅运行,使得高性能 AI 能力不再局限于拥有昂贵 GPU 集群的大型机构,促进了 AI 技术的普惠化。
  3. 效率与性能的平衡:通过 MoE 架构和推理优化,Liquid AI 证明了小参数模型在特定任务(如工具调用、指令遵循)上可以超越大参数密集模型。这种“压缩性能”策略为未来边缘 AI 的发展提供了重要的技术路径。
  4. 生态兼容性:对 llama.cpp、MLX、vLLM 等主流框架的全面支持,降低了开发者集成和部署该模型的难度,有助于加速 AI 应用在不同硬件平台上的落地。

总之,LFM2.5-8B-A1B 不仅是一个技术产品,更是 Liquid AI 推动“AI 无处不在”愿景的具体实践,预示着未来 AI 将更加紧密地融入个人设备和日常工作中。

查看原文 →liquid.ai