技术博客arXiv cs.AI·1 天前

NAVI-Orbital实现零样本视觉语言模型在轨自主地球观测

原标题：NAVI-Orbital: First In-Orbit Demonstration of a Zero-Shot Vision-Language Model for Autonomous Earth Observation

速览

NAVI-Orbital是部署于低地球轨道卫星的软件系统，于2026年4月16日成功演示了零样本视觉语言模型的在轨自主多模态推理。该系统利用本地Gemma 3模型对捕获场景进行分类、生成文本描述，并通过自然语言对话响应操作员指令。实验结果证明，在卫星级边缘计算机上运行基础模型可行，可通过语义压缩实现地球观测数据的在轨处理，从而突破下行带宽限制。

AI 深度解读

NAVI-Orbital：零样本视觉语言模型在轨自主地球观测的首次演示

背景

随着地球观测（Earth Observation, EO）数据的生成速度远远超过下行链路带宽和人工介入处理的能力，航天器在轨采集数据与地面可操作情报之间出现了一个日益扩大的差距。传统的卫星数据处理模式通常遵循“采集-全量下传-地面处理”的流程，这种模式在面对海量高分辨率影像时，不仅受限于通信带宽瓶颈，还难以满足对突发或关键事件进行实时响应的需求。

为了打破这一僵局，将人工智能能力直接部署在卫星边缘计算节点成为了一种极具潜力的解决方案。然而，在资源受限的太空环境中运行复杂的深度学习模型，尤其是需要同时处理视觉和语言理解的视觉语言模型（Vision-Language Models, VLMs），面临着巨大的技术挑战。本文介绍的 NAVI-Orbital 系统正是为了解决这一痛点而生，旨在通过语义压缩和在轨推理，实现从“被动数据收集”到“主动情报获取”的转变。

核心内容

NAVI-Orbital 是一个部署在低地球轨道（LEO）航天器上的软件系统。2026年4月16日，该系统成功完成了作者所知的首次在轨演示，展示了一个视觉语言模型在完全在轨环境下执行自主多模态推理的能力。

技术架构与模型选择

NAVI-Orbital 的核心是一个本地运行的视觉语言模型 Gemma 3。该系统利用该模型对捕获的每一个场景进行分类，生成对其内容及其特征之间关系的文本描述。此外，系统还支持通过自然语言对话响应操作员的后续查询，实现了人机交互的自然化。

任务重定义与编排

与传统卫星依赖预定义的命令序列不同，NAVI-Orbital 允许操作员使用纯英语提示词（plain-English prompts）来重新定义任务。系统的任务编排由基于图的有限状态机 LangGraph 协调，该机制专门协调用于检测和对话的独立智能体（agents）。这种架构使得卫星能够根据指令动态调整其观测重点和响应方式，而无需地面重新上传复杂的控制代码。

验证与性能表现

该系统的可行性通过以下三个层面的验证得到了证实：

地面基准测试：在包含 7,960 张图像的精心策划的 AID 基准测试集上，系统达到了 88.16% 的准确率。
地面模拟验证：通过 Flatsat（平面卫星）验证系统在地面环境下的运行稳定性。
在轨实测：系统成功处理了全新获取且此前未见过的地球影像。值得注意的是，这些影像包括未经校正的 YAM-9 影像，且系统在处理过程中未针对飞行仪器进行微调（fine-tuning）。

硬件加速与推理效率

在轨处理过程中，系统利用硬件加速的 GPU 推理能力，在卫星边缘计算机上直接处理数据。这一过程实现了地球观测数据的在轨语义压缩，从而颠覆了传统的“采集后全量下传”的带宽消耗模式。通过只下传经过语义理解后的关键信息或摘要，NAVI-Orbital 显著降低了对下行链路带宽的依赖。

关键要点

首创性：NAVI-Orbital 实现了首个在轨演示的零样本（Zero-Shot）视觉语言模型自主多模态推理，标志着卫星智能从规则驱动向认知驱动的转变。
模型轻量化与适应性：使用 Gemma 3 作为基础模型，能够在不进行针对特定飞行仪器微调的情况下，直接处理未经校正的原始影像（如 YAM-9 数据），展现了强大的泛化能力。
自然语言交互：通过 LangGraph 编排的智能体系统，操作员可以使用自然语言提示词重新定义任务，替代了传统的复杂指令序列，极大地提高了任务执行的灵活性和效率。
边缘计算可行性：证明了在卫星级边缘计算机上运行基础模型（Foundation Models）是可行的，特别是在利用硬件加速 GPU 进行推理时。
带宽优化：通过在轨进行语义压缩，系统改变了传统的带宽消耗 profile，仅下传高价值的情报而非原始数据，有效缓解了下行链路压力。
高精度表现：在地面 AID 基准测试中达到 88.16% 的准确率，并在在轨实测中成功处理了未见过的真实地球影像，验证了其在实际应用场景中的可靠性。

意义与影响

NAVI-Orbital 的成功演示具有深远的技术和战略意义。首先，它证明了大型基础模型可以在资源受限的太空环境中高效运行，为未来更多类型的 AI 模型上星铺平了道路。其次，通过引入视觉语言模型，卫星不再仅仅是数据的“搬运工”，而是成为了能够理解场景、提取语义并回答复杂问题的“智能体”。

这种能力的提升将彻底改变地球观测的工作流程。地面控制中心不再需要等待海量原始数据下传后再进行分析，而是可以直接向卫星提问，获取即时的、经过语义理解的情报。这对于灾害响应、军事侦察、环境监测等对时效性要求极高的领域具有革命性的影响。此外，这种基于自然语言的任务重定义能力，降低了操作卫星的技术门槛，使得非专业人员也能更直观地利用卫星资源。

总之，NAVI-Orbital 不仅是一次技术验证，更是卫星操作系统范式转变的标志，预示着太空智能将从简单的自动化迈向真正的自主认知阶段。

查看原文 →arxiv.org