技术博客Hugging Face Blog·2026/4/2

欢迎 Gemma 4：端侧的前沿多模态智能

原标题：Welcome Gemma 4: Frontier multimodal intelligence on device

速览

Gemma 4 正式发布，标志着前沿多模态智能能力成功部署于设备端。该模型旨在提升本地处理复杂多模态任务的性能与效率。此举推动了 AI 在隐私保护和低延迟场景下的广泛应用。

AI 深度解读

Welcome Gemma 4：端侧的前沿多模态智能

背景

Hugging Face 博客近日发布了关于 Gemma 4 的详细介绍。作为 Google 与 Hugging Face 社区合作推出的新一代开源模型家族，Gemma 4 旨在将“前沿（Frontier）”级别的多模态智能带入设备端（On-device）。

Gemma 4 延续了其前代模型（如 Gemma-3n）的技术路线，但进行了显著的架构优化和能力扩展。它基于 Apache 2.0 许可证完全开源，不仅在文本生成的 Pareto 前沿竞技场得分上表现优异，更在图像、音频等多模态输入处理上实现了突破。官方测试表明，Gemma 4 的基础性能极强，以至于在预发布检查点阶段，研究人员甚至难以找到合适的微调示例，因为其开箱即用的能力已经非常出色。

核心内容

1. 模型架构与新增特性

Gemma 4 在继承 Gemma-3n 支持图像、文本和音频输入并生成文本响应的基础上，对核心组件进行了关键改进：

文本解码器：基于 Gemma 模型架构，支持长上下文窗口。
图像编码器：借鉴自 Gemma 3，但引入了两项关键改进：
- 支持可变长宽比（Variable aspect ratios）。
- 支持可配置的图像 Token 输入数量，允许用户在速度、内存占用和质量之间找到最佳平衡点（Sweet spot）。
音频支持：所有模型均支持图像（或视频）和文本输入；小型变体（E2B 和 E4B）额外支持音频输入。
模型尺寸：提供四种尺寸，均包含 Base（基础）和 Instruction Fine-tuned（指令微调）版本。

2. 架构设计哲学

Gemma 4 的架构设计强调兼容性、效率和长上下文支持。它采用了之前 Gemma 版本及其他开源模型中验证过的组件，摒弃了如 Altup 等复杂或结论不明确的特性。这种混合设计旨在：

在各类库和设备间实现高度兼容。
高效支持长上下文和 Agent（智能体）用例。
非常适合量化部署。

性能表现：

31B 稠密模型（Dense）：预估 LMArena 分数（纯文本）达到 1452。
26B MoE 模型：仅激活 4B 参数，LMArena 分数达到 1441。
多模态能力：在非正式和主观测试中，多模态操作的表现与文本生成相当。

3. 关键技术特性详解

Gemma 4 引入了多项旨在提升效率和精度的架构特性：

交替局部滑动窗口与全局全上下文注意力层：
- 较小稠密模型使用 512 Token 的滑动窗口。
- 较大模型使用 1024 Token 的滑动窗口。
双 RoPE 配置：
- 滑动层使用标准 RoPE。
- 全局层使用剪枝 RoPE（Pruned RoPE），以支持更长的上下文。
逐层嵌入（Per-Layer Embeddings, PLE）：
- 原理：在标准 Transformer 中，Token 仅在输入时获得单一嵌入向量，所有层共享初始表示。PLE 引入了一条并行的、低维度的条件路径，为每个解码器层提供专用的小型向量。
- 构成：由 Token 身份组件（来自嵌入查找）和上下文感知组件（来自主嵌入的学习投影）结合而成。
- 作用：允许每层通过轻量级残差块调节隐藏状态，使每层仅在相关信息出现时才接收 Token 特异性信息，而非将所有信息打包到初始嵌入中。
- 多模态适配：对于图像、音频等多模态输入，PLE 在 Soft Tokens 合并到嵌入序列之前计算。由于 PLE 依赖 Token ID，而多模态特征会替换占位符导致 ID 丢失，因此多模态位置使用 Pad Token ID，接收中性的逐层信号。
共享 KV 缓存（Shared KV Cache）：
- 原理：模型最后 num_kv_shared_layers 层不计算自己的 Key 和 Value 投影，而是复用同类型注意力层（滑动或全局）中最后一个非共享层的 K 和 V 张量。
- 优势：在几乎不影响质量的前提下，显著降低推理时的计算量和内存占用，特别利于长上下文生成和端侧部署。
视觉编码器：使用学习到的 2D 位置和多维 RoPE，保留原始长宽比，并支持将图像编码为不同数量的 Token（70, 140, 280, 560, 1120）。
音频编码器：采用 USM 风格的 Conformer 架构，与 Gemma-3n 中的基础架构相同。

4. 多模态能力与应用示例

Gemma 4 开箱即用地支持全面的多模态任务，包括 OCR、语音转文本、目标检测、指点（Pointing）、文本及多模态函数调用、推理、代码补全与修正。

目标检测与指点：
- 测试场景：检测 GUI 元素“view recipe”的边界框。
- 结果：模型原生以 JSON 格式返回检测结果，无需特定指令或语法约束生成。坐标基于 1000x1000 的图像尺寸，相对于输入维度。
- 输出示例：[{"box_2d": [171, 75, 245, 308], "label": "view recipe element"}]
- 日常物体检测：模型能准确检测自行车等物体，并解析 JSON 中的边界框坐标。
多模态思考与函数调用：
- 测试场景：要求模型编写 HTML 代码以重构使用 Gemini 3 制作的页面。
- 方法：启用“思考（Thinking）”模式，限制生成最多 4000 个新 Token 以确保准确性。
- 代码实现：通过 Hugging Face Transformers 库，使用 apply_chat_template 处理包含图像和文本的消息，启用 enable_thinking=True，并调用 model.generate。
视频理解：
- 小型 Gemma 4 模型支持带音频的视频输入，大型模型支持无音频视频。
- 尽管模型未针对视频进行专门的后续训练（Post-training），但仍能理解带音频和无音频的视频内容。

关键要点

完全开源与许可：Gemma 4 基于 Apache 2.0 许可证发布，真正开放，允许广泛部署。
多模态全覆盖：支持图像、文本、音频输入，小型模型（E2B, E4B）支持音频，所有模型支持视频。
架构创新：
- PLE（逐层嵌入）：通过并行低维路径为每层提供特异性信息，提升效率与精度。
- 共享 KV 缓存：复用最后几层的 KV 状态，显著降低长上下文推理的内存和计算开销。
- 可变图像 Token：允许用户根据设备能力调整图像处理的 Token 数量，平衡速度与质量。
高性能表现：
- 31B 稠密模型 LMArena 分数达 1452。
- 26B MoE 模型仅激活 4B 参数即可达到 1441 分，效率极高。
强大的开箱即用能力：在预发布测试中，模型无需微调即可在 OCR、目标检测、代码生成等任务中表现优异。
广泛的部署兼容性：与 Google 和社区合作，支持 Transformers、llama.cpp、MLX、

查看原文 →huggingface.co