技术博客Hugging Face Blog·15 天前

OlmoEarth v1.1：一个更高效的地球观测模型家族

原标题：OlmoEarth v1.1: A more efficient family of Earth observation models

速览

OlmoEarth v1.1是最新发布的地球观测模型系列，旨在提升处理效率与性能。该版本通过优化架构，显著降低了计算资源消耗，同时保持了对遥感数据的高精度解析能力。这一进展为大规模环境监测和地理空间分析提供了更具性价比的解决方案。

AI 深度解读

OlmoEarth v1.1：更高效的地球观测模型家族

背景

OlmoEarth 由 Hugging Face 于 2025 年 11 月首次发布（v1 版本）。自发布以来，其合作伙伴已将该模型应用于广泛的任务中，从追踪红树林变化、分类森林丧失的驱动因素，到在数天内生成国家规模的作物类型地图。部署规模已从局部扩展至国家、大陆乃至全球范围。每一次版本的迭代都让我们离使命更近一步：将最先进的 AI 技术带给致力于保护人类和地球的组织与社区。

在处理卫星图像以进行预测时，效率决定了可能性的边界。当 OlmoEarth 处理覆盖数万至数十万平方公里的卫星图像时，从数据导出、预处理、推理到后处理的整个生命周期中，计算成本（Compute）是最高的支出部分。因此，一个更高效的模型意味着我们可以支持 OlmoEarth Platform 上的更多合作伙伴，同时也让任何自行部署 OlmoEarth 的用户能够以更低的成本、更快的速度利用这项技术。

基于此，我们构建了 OlmoEarth v1.1：一个全新的模型家族，它在保持 OlmoEarth v1 在混合研究基准及与合作伙伴共同构建的任务中性能不变的前提下，将计算成本降低了高达 3 倍。

核心内容

通过缩短序列长度提升效率

OlmoEarth 模型基于 Transformer 架构，这是当前机器学习领域的主导架构之一。为了处理遥感数据，我们首先将其转换为模型可输入的 token 序列。

在基于 Transformer 的模型中，有两个关键杠杆控制着效率：

模型大小：这也是我们发布模型家族的原因，以便用户根据计算预算选择合适的规模。
Token 序列长度：计算成本随 token 序列长度呈二次方增长，因此即使微小的缩减也能显著降低运行成本。

MACs（乘加运算次数）用于估算模型单次前向传播所需的计算量；较低的 MACs 通常意味着更便宜、更快的推理速度。

Token 的设计与优化

对于基于 Transformer 的遥感模型而言，一个核心问题是：Token 应该代表什么？

以我们常处理的 Sentinel-2 影像为例。Sentinel-2 的输入是一个张量，包含高度和宽度（H, W 代表经纬度像素）、时间维度 T 以及 12 个 Sentinel-2 通道（即 [H, W, T, D=12]）。

原有方法： 目前，我们将数据分割为基于分辨率的图块（Patches）。具体而言，我们选择某个空间图块大小 $p$，并将整体 Sentinel-2 图像分割为 $p \times p$ 的图块。对于每个图块，我们为每个时间步的每个分辨率创建一个 token。因此，一个具有 2 个时间步的 Sentinel-2 输入会在每个图块中产生 6 个 token（2 个时间步 $\times$ 3 种分辨率：10m、20m 和 60m）。总计，一个 [H, W, T, D=12] 的 Sentinel-2 输入将产生 $(H/p) \times (W/p) \times T \times 3$ 个 token。

优化思路： 为每个分辨率使用唯一 token 是处理 Sentinel-2 数据的常见技术——Galileo 和 SatMAE 均采用此方法，且 SatMAE 在此方法下表现出显著更好的结果。然而，这并非通用法则：CROMA 是一个仅对所有波段使用单个 token 的模型，无论分辨率如何。由于 token 数量呈乘法累积，将分辨率合并为单个 token 可使预训练、微调及推理过程中的 token 数量减少三倍，从而带来实质性的节省。

挑战与解决方案： 简单地合并 token 会导致性能显著下降，例如在 m-eurosat kNN（遥感模型的常见基准任务）上下降了 10 ppt（百分比点）。我们假设，将 Sentinel-2 波段分离到不同的 token 中，使得 OlmoEarth 更容易建模重要的跨波段关系。

为了在不影响性能的情况下合并 token，我们修改了预训练策略。这些变化的细节在我们的论文中有详细描述。

关键要点

成本大幅降低：OlmoEarth v1.1 将计算成本降低了高达 3 倍，同时保持了与 v1 版本相当的性能。
序列长度是关键杠杆：由于 Transformer 的计算成本随序列长度二次方增长，减少 token 数量是提升效率的核心手段。
Token 策略优化：
- 传统做法是为每个分辨率（10m, 20m, 60m）分别创建 token，导致 token 数量乘以 3。
- v1.1 尝试将不同分辨率的波段合并为单个 token，以减少 2/3 的 token 数量。
- 直接合并会导致性能下降（如 m-eurosat kNN 下降 10 ppt），因此需要调整预训练策略以保留跨波段关系建模能力。
模型家族化：提供 Base、Tiny 和 Nano 等不同规模的模型，用户可根据计算预算选择。
科研价值：v1.1 使用与 v1 相同的数据集进行训练，隔离了方法论变化的影响，有助于研究遥感模型预训练的科学原理。

意义与影响

对于开发者而言，OlmoEarth v1.1 是一个“用更少的资源做更多事”的模型家族。在每个规模层级上，v1.1 的运行成本仅为 v1 的三分之一，使得任何运行 OlmoEarth 的团队都能以更低的成本进行频繁的全球尺度地图刷新。如果你正在使用原始的 OlmoEarth 模型家族，建议尝试 v1.1。虽然我们在某些任务上观察到了一些性能回退（详见技术报告），但如果它适用于你的任务，你将在微调和推理阶段看到显著的速度提升。

对于研究人员而言，预训练的遥感模型拥有许多自由度，这使得研究变得困难。当性能发生变化时，究竟是架构、数据集还是预训练算法导致了变化？由于 OlmoEarth v1.1 与 v1 使用相同的数据集，两者之间的差异可以隔离出方法论变化的影响。我们希望这能推进对遥感模型预训练科学原理的理解。

目前，你可以查看 OlmoEarth v1.1 的权重和训练代码，包括 Base、Tiny 和 Nano 模型的权重。

查看原文 →huggingface.co