欢迎 Gemma 4:端侧的前沿多模态智能
原标题:Welcome Gemma 4: Frontier multimodal intelligence on device
速览
Gemma 4 正式发布,标志着前沿多模态智能能力成功部署于设备端。该模型旨在提升本地处理复杂多模态任务的性能与效率。此举推动了 AI 在隐私保护和低延迟场景下的广泛应用。
AI 深度解读
Welcome Gemma 4:端侧的前沿多模态智能
背景
Hugging Face 博客近日发布了关于 Gemma 4 的详细介绍。作为 Google 与 Hugging Face 社区合作推出的新一代开源模型家族,Gemma 4 旨在将“前沿(Frontier)”级别的多模态智能带入设备端(On-device)。
Gemma 4 延续了其前代模型(如 Gemma-3n)的技术路线,但进行了显著的架构优化和能力扩展。它基于 Apache 2.0 许可证完全开源,不仅在文本生成的 Pareto 前沿竞技场得分上表现优异,更在图像、音频等多模态输入处理上实现了突破。官方测试表明,Gemma 4 的基础性能极强,以至于在预发布检查点阶段,研究人员甚至难以找到合适的微调示例,因为其开箱即用的能力已经非常出色。
核心内容
1. 模型架构与新增特性
Gemma 4 在继承 Gemma-3n 支持图像、文本和音频输入并生成文本响应的基础上,对核心组件进行了关键改进:
- 文本解码器:基于 Gemma 模型架构,支持长上下文窗口。
- 图像编码器:借鉴自 Gemma 3,但引入了两项关键改进:
- 支持可变长宽比(Variable aspect ratios)。
- 支持可配置的图像 Token 输入数量,允许用户在速度、内存占用和质量之间找到最佳平衡点(Sweet spot)。
- 音频支持:所有模型均支持图像(或视频)和文本输入;小型变体(E2B 和 E4B)额外支持音频输入。
- 模型尺寸:提供四种尺寸,均包含 Base(基础)和 Instruction Fine-tuned(指令微调)版本。
2. 架构设计哲学
Gemma 4 的架构设计强调兼容性、效率和长上下文支持。它采用了之前 Gemma 版本及其他开源模型中验证过的组件,摒弃了如 Altup 等复杂或结论不明确的特性。这种混合设计旨在:
- 在各类库和设备间实现高度兼容。
- 高效支持长上下文和 Agent(智能体)用例。
- 非常适合量化部署。
性能表现:
- 31B 稠密模型(Dense):预估 LMArena 分数(纯文本)达到 1452。
- 26B MoE 模型:仅激活 4B 参数,LMArena 分数达到 1441。
- 多模态能力:在非正式和主观测试中,多模态操作的表现与文本生成相当。
3. 关键技术特性详解
Gemma 4 引入了多项旨在提升效率和精度的架构特性:
- 交替局部滑动窗口与全局全上下文注意力层:
- 较小稠密模型使用 512 Token 的滑动窗口。
- 较大模型使用 1024 Token 的滑动窗口。
- 双 RoPE 配置:
- 滑动层使用标准 RoPE。
- 全局层使用剪枝 RoPE(Pruned RoPE),以支持更长的上下文。
- 逐层嵌入(Per-Layer Embeddings, PLE):
- 原理:在标准 Transformer 中,Token 仅在输入时获得单一嵌入向量,所有层共享初始表示。PLE 引入了一条并行的、低维度的条件路径,为每个解码器层提供专用的小型向量。
- 构成:由 Token 身份组件(来自嵌入查找)和上下文感知组件(来自主嵌入的学习投影)结合而成。
- 作用:允许每层通过轻量级残差块调节隐藏状态,使每层仅在相关信息出现时才接收 Token 特异性信息,而非将所有信息打包到初始嵌入中。
- 多模态适配:对于图像、音频等多模态输入,PLE 在 Soft Tokens 合并到嵌入序列之前计算。由于 PLE 依赖 Token ID,而多模态特征会替换占位符导致 ID 丢失,因此多模态位置使用 Pad Token ID,接收中性的逐层信号。
- 共享 KV 缓存(Shared KV Cache):
- 原理:模型最后
num_kv_shared_layers层不计算自己的 Key 和 Value 投影,而是复用同类型注意力层(滑动或全局)中最后一个非共享层的 K 和 V 张量。 - 优势:在几乎不影响质量的前提下,显著降低推理时的计算量和内存占用,特别利于长上下文生成和端侧部署。
- 原理:模型最后
- 视觉编码器:使用学习到的 2D 位置和多维 RoPE,保留原始长宽比,并支持将图像编码为不同数量的 Token(70, 140, 280, 560, 1120)。
- 音频编码器:采用 USM 风格的 Conformer 架构,与 Gemma-3n 中的基础架构相同。
4. 多模态能力与应用示例
Gemma 4 开箱即用地支持全面的多模态任务,包括 OCR、语音转文本、目标检测、指点(Pointing)、文本及多模态函数调用、推理、代码补全与修正。
-
目标检测与指点:
- 测试场景:检测 GUI 元素“view recipe”的边界框。
- 结果:模型原生以 JSON 格式返回检测结果,无需特定指令或语法约束生成。坐标基于 1000x1000 的图像尺寸,相对于输入维度。
- 输出示例:
[{"box_2d": [171, 75, 245, 308], "label": "view recipe element"}] - 日常物体检测:模型能准确检测自行车等物体,并解析 JSON 中的边界框坐标。
-
多模态思考与函数调用:
- 测试场景:要求模型编写 HTML 代码以重构使用 Gemini 3 制作的页面。
- 方法:启用“思考(Thinking)”模式,限制生成最多 4000 个新 Token 以确保准确性。
- 代码实现:通过 Hugging Face Transformers 库,使用
apply_chat_template处理包含图像和文本的消息,启用enable_thinking=True,并调用model.generate。
-
视频理解:
- 小型 Gemma 4 模型支持带音频的视频输入,大型模型支持无音频视频。
- 尽管模型未针对视频进行专门的后续训练(Post-training),但仍能理解带音频和无音频的视频内容。
关键要点
- 完全开源与许可:Gemma 4 基于 Apache 2.0 许可证发布,真正开放,允许广泛部署。
- 多模态全覆盖:支持图像、文本、音频输入,小型模型(E2B, E4B)支持音频,所有模型支持视频。
- 架构创新:
- PLE(逐层嵌入):通过并行低维路径为每层提供特异性信息,提升效率与精度。
- 共享 KV 缓存:复用最后几层的 KV 状态,显著降低长上下文推理的内存和计算开销。
- 可变图像 Token:允许用户根据设备能力调整图像处理的 Token 数量,平衡速度与质量。
- 高性能表现:
- 31B 稠密模型 LMArena 分数达 1452。
- 26B MoE 模型仅激活 4B 参数即可达到 1441 分,效率极高。
- 强大的开箱即用能力:在预发布测试中,模型无需微调即可在 OCR、目标检测、代码生成等任务中表现优异。
- 广泛的部署兼容性:与 Google 和社区合作,支持 Transformers、llama.cpp、MLX、
查看原文 →huggingface.co
