技术博客Hugging Face Blog·2026/5/19

OlmoEarth v1.1发布：更高效的地球观测模型家族

原标题：OlmoEarth v1.1: A more efficient family of Earth observation models

速览

Ollama团队发布了OlmoEarth v1.1，这是一个更高效的地球观测模型家族。该版本旨在提升处理卫星图像和地理空间数据的能力，为遥感应用提供更强大的AI支持。

AI 深度解读

OlmoEarth v1.1：构建更高效的地球观测模型家族

背景

OlmoEarth 于 2025 年 11 月发布了首个版本（v1）。自发布以来，合作伙伴已将其应用于广泛的任务中，从追踪红树林变化、分类森林丧失的驱动因素，到在数天内生成国家尺度的作物类型地图。该技术的部署规模已扩展至国家、大陆乃至全球范围。每一次版本的迭代都让我们更接近使命的核心：将最先进的 AI 技术带给致力于保护人类和地球的组织与社区。

当 OlmoEarth 处理卫星图像以在数万至数十万平方公里的范围内进行预测时，效率决定了可能性的边界。在运行 OlmoEarth 的全生命周期中——包括数据导出、预处理、推理和后处理——计算成本是最高的支出。一个更高效的模型意味着我们可以在 OlmoEarth 平台上支持更多的合作伙伴，同时也让任何自行部署 OlmoEarth 的个人或团队能够以更低的成本、更快的速度利用这项技术。

正是基于这一目标，我们构建了 OlmoEarth v1.1：一个全新的模型家族，它在保持 OlmoEarth v1 在多项研究基准及与合作伙伴共同构建的任务中性能不变的前提下，将计算成本降低了高达 3 倍。

核心内容

OlmoEarth 模型基于 Transformer 架构，这是当今机器学习领域的主导架构之一。为了处理遥感数据，我们首先将其转换为模型可以输入的标记（token）序列。在基于 Transformer 的模型中，控制效率的两个关键杠杆是模型大小（这也是我们发布模型家族的原因，以便用户根据计算预算选择合适的大小）和标记序列长度。计算成本随标记序列长度呈二次方增长，因此即使是微小的缩减也能显著降低运行成本。

MACs（乘加运算次数）估计了模型前向传播所需的计算量；较低的 MACs 通常意味着更便宜、更快的推理速度。

标记的设计与优化

这引出了一个针对基于 Transformer 的遥感模型的重要问题：标记应该代表什么？

以 Sentinel-2 图像为例，这是我们要处理的常见模态。Sentinel-2 的输入是一个具有高度和宽度（H、W 分别代表纬度和经度像素）、时间维度 T 以及 12 个 Sentinel-2 通道的张量（形状为 [H, W, T, D=12]）。

目前，我们将数据按分辨率分割为基于分辨率的图块（patches）。具体来说，我们会选择一个空间图块大小 p，并将整个 Sentinel-2 图像分割为大小为 p x p 的图块。对于每个图块，我们为每个时间步的每个分辨率创建一个标记。因此，具有 2 个时间步的 Sentinel-2 输入会在每个图块中产生 6 个标记（2 个时间步 x 3 种分辨率：10m、20m 和 60m）。

总体而言，一个 [H, W, T, D=12] 的 Sentinel-2 输入将产生 (H/p) x (W/p) x T x 3 个标记。

使用唯一的标记对应每种分辨率是处理 Sentinel-2 数据时的常见技术——Galileo 和 SatMAE 都采用了这种方法，且 SatMAE 在此方法下表现出显著更好的结果。然而，这并非通用做法：CROMA 是一个模型，它无论分辨率如何，仅对所有波段使用单一标记。由于标记数量呈乘法累积，将分辨率合并为单一标记会使标记数量减少三倍，从而在预训练、微调和推理中产生实质性的节省。

性能权衡与解决方案

以朴素的方式合并这些标记会导致显著的性能下降，例如在 m-eurosat kNN（遥感模型的常见基准任务）上下降了 10 ppt（百分点）。我们假设，将 Sentinel-2 波段分离到不同的标记中，使得 OlmoEarth 更容易建模重要的跨波段关系。

为了在不影响性能的情况下合并标记，我们需要修改预训练策略。我们在技术报告中详细描述了这些变更。

关键要点

计算成本大幅降低：OlmoEarth v1.1 将计算成本降低了高达 3 倍，同时保持了与 v1 相当的性能。
效率提升机制：通过优化标记序列长度来降低计算成本。计算成本随序列长度呈二次方增长，减少标记数量是提升效率的关键。
标记策略革新：
- 传统做法是为每种分辨率（如 10m, 20m, 60m）创建独立的标记。
- v1.1 尝试将不同分辨率的标记合并，以减少标记总数（理论上可减少至原来的 1/3）。
- 直接合并会导致性能下降（如 m-eurosat kNN 任务下降 10 ppt），因此团队修改了预训练策略以弥补这一差距。
模型家族化：提供 Base、Tiny 和 Nano 等不同大小的模型，用户可根据计算预算选择。
科学可复现性：OlmoEarth v1.1 使用与 v1 相同的数据集进行训练，从而隔离了方法论变更的影响，有助于研究预训练遥感模型的科学原理。

意义与影响

对于开发者而言，OlmoEarth v1.1 是一个“以更少资源做更多事”的模型家族。在每种尺寸下，OlmoEarth v1.1 的运行成本比 OlmoEarth v1 低多达三倍，使得运行 OlmoEarth 的每个团队都能以更低的成本实现频繁的全球地图刷新。如果你正在使用原始 OlmoEarth 家族的模型，建议尝试 OlmoEarth v1.1。它在提供与 v1 相似性能的同时，仅需三分之一的计算资源。虽然我们在某些任务中观察到了一些性能回退（详见技术报告），但如果你的任务适用，你将在微调和推理阶段看到显著的速度提升。

对于研究人员而言，预训练的遥感模型具有许多自由度，这使得它们难以研究。当性能发生变化时，究竟是架构、数据集还是预训练算法导致了变化？由于 OlmoEarth v1.1 与 OlmoEarth v1 使用相同的数据集进行训练，两者之间的任何差异都隔离了方法论变更的影响。我们希望这能推进对遥感模型预训练科学原理的理解。

目前，你可以查看 OlmoEarth v1.1 的权重和训练代码，包括 Base、Tiny 和 Nano 模型的权重。

查看原文 →huggingface.co