← 返回信息流
技术博客Hugging Face Blog·2026/5/19

OlmoEarth v1.1发布:更高效的地球观测模型家族

原标题:OlmoEarth v1.1: A more efficient family of Earth observation models

速览

Ollama团队发布了OlmoEarth v1.1,这是一个更高效的地球观测模型家族。该版本旨在提升处理卫星图像和地理空间数据的能力,为遥感应用提供更强大的AI支持。

AI 深度解读

OlmoEarth v1.1:构建更高效的地球观测模型家族

背景

OlmoEarth 于 2025 年 11 月发布了首个版本(v1)。自发布以来,合作伙伴已将其应用于广泛的任务中,从追踪红树林变化、分类森林丧失的驱动因素,到在数天内生成国家尺度的作物类型地图。该技术的部署规模已扩展至国家、大陆乃至全球范围。每一次版本的迭代都让我们更接近使命的核心:将最先进的 AI 技术带给致力于保护人类和地球的组织与社区。

当 OlmoEarth 处理卫星图像以在数万至数十万平方公里的范围内进行预测时,效率决定了可能性的边界。在运行 OlmoEarth 的全生命周期中——包括数据导出、预处理、推理和后处理——计算成本是最高的支出。一个更高效的模型意味着我们可以在 OlmoEarth 平台上支持更多的合作伙伴,同时也让任何自行部署 OlmoEarth 的个人或团队能够以更低的成本、更快的速度利用这项技术。

正是基于这一目标,我们构建了 OlmoEarth v1.1:一个全新的模型家族,它在保持 OlmoEarth v1 在多项研究基准及与合作伙伴共同构建的任务中性能不变的前提下,将计算成本降低了高达 3 倍。

核心内容

OlmoEarth 模型基于 Transformer 架构,这是当今机器学习领域的主导架构之一。为了处理遥感数据,我们首先将其转换为模型可以输入的标记(token)序列。在基于 Transformer 的模型中,控制效率的两个关键杠杆是模型大小(这也是我们发布模型家族的原因,以便用户根据计算预算选择合适的大小)和标记序列长度。计算成本随标记序列长度呈二次方增长,因此即使是微小的缩减也能显著降低运行成本。

MACs(乘加运算次数)估计了模型前向传播所需的计算量;较低的 MACs 通常意味着更便宜、更快的推理速度。

标记的设计与优化

这引出了一个针对基于 Transformer 的遥感模型的重要问题:标记应该代表什么?

以 Sentinel-2 图像为例,这是我们要处理的常见模态。Sentinel-2 的输入是一个具有高度和宽度(H、W 分别代表纬度和经度像素)、时间维度 T 以及 12 个 Sentinel-2 通道的张量(形状为 [H, W, T, D=12])。

目前,我们将数据按分辨率分割为基于分辨率的图块(patches)。具体来说,我们会选择一个空间图块大小 p,并将整个 Sentinel-2 图像分割为大小为 p x p 的图块。对于每个图块,我们为每个时间步的每个分辨率创建一个标记。因此,具有 2 个时间步的 Sentinel-2 输入会在每个图块中产生 6 个标记(2 个时间步 x 3 种分辨率:10m、20m 和 60m)。

总体而言,一个 [H, W, T, D=12] 的 Sentinel-2 输入将产生 (H/p) x (W/p) x T x 3 个标记。

使用唯一的标记对应每种分辨率是处理 Sentinel-2 数据时的常见技术——Galileo 和 SatMAE 都采用了这种方法,且 SatMAE 在此方法下表现出显著更好的结果。然而,这并非通用做法:CROMA 是一个模型,它无论分辨率如何,仅对所有波段使用单一标记。由于标记数量呈乘法累积,将分辨率合并为单一标记会使标记数量减少三倍,从而在预训练、微调和推理中产生实质性的节省。

性能权衡与解决方案

以朴素的方式合并这些标记会导致显著的性能下降,例如在 m-eurosat kNN(遥感模型的常见基准任务)上下降了 10 ppt(百分点)。我们假设,将 Sentinel-2 波段分离到不同的标记中,使得 OlmoEarth 更容易建模重要的跨波段关系。

为了在不影响性能的情况下合并标记,我们需要修改预训练策略。我们在技术报告中详细描述了这些变更。

关键要点

  • 计算成本大幅降低:OlmoEarth v1.1 将计算成本降低了高达 3 倍,同时保持了与 v1 相当的性能。
  • 效率提升机制:通过优化标记序列长度来降低计算成本。计算成本随序列长度呈二次方增长,减少标记数量是提升效率的关键。
  • 标记策略革新
    • 传统做法是为每种分辨率(如 10m, 20m, 60m)创建独立的标记。
    • v1.1 尝试将不同分辨率的标记合并,以减少标记总数(理论上可减少至原来的 1/3)。
    • 直接合并会导致性能下降(如 m-eurosat kNN 任务下降 10 ppt),因此团队修改了预训练策略以弥补这一差距。
  • 模型家族化:提供 Base、Tiny 和 Nano 等不同大小的模型,用户可根据计算预算选择。
  • 科学可复现性:OlmoEarth v1.1 使用与 v1 相同的数据集进行训练,从而隔离了方法论变更的影响,有助于研究预训练遥感模型的科学原理。

意义与影响

对于开发者而言,OlmoEarth v1.1 是一个“以更少资源做更多事”的模型家族。在每种尺寸下,OlmoEarth v1.1 的运行成本比 OlmoEarth v1 低多达三倍,使得运行 OlmoEarth 的每个团队都能以更低的成本实现频繁的全球地图刷新。如果你正在使用原始 OlmoEarth 家族的模型,建议尝试 OlmoEarth v1.1。它在提供与 v1 相似性能的同时,仅需三分之一的计算资源。虽然我们在某些任务中观察到了一些性能回退(详见技术报告),但如果你的任务适用,你将在微调和推理阶段看到显著的速度提升。

对于研究人员而言,预训练的遥感模型具有许多自由度,这使得它们难以研究。当性能发生变化时,究竟是架构、数据集还是预训练算法导致了变化?由于 OlmoEarth v1.1 与 OlmoEarth v1 使用相同的数据集进行训练,两者之间的任何差异都隔离了方法论变更的影响。我们希望这能推进对遥感模型预训练科学原理的理解。

目前,你可以查看 OlmoEarth v1.1 的权重和训练代码,包括 Base、Tiny 和 Nano 模型的权重。

查看原文 →huggingface.co