技术博客arXiv cs.CL·7 小时前

TerraMARS：基于小语言模型的火星改造文献信息提取管线

原标题：TerraMARS: A Domain-Adapted Small-Language-Model Pipeline for Mars Terraforming Literature

速览

研究人员提出TerraMARS，这是一个端到端的信息提取管线，旨在从火星科学文献中提取有价值的定量约束。该管线采用领域适配的小语言模型Gemma 3 1B，通过QLoRA微调技术，将非结构化文本转化为机器可读的JSON格式。这一成果为火星数字孪生和宜居性评估等下游应用提供了可靠的知识基础。

AI 深度解读

TerraMARS：面向火星改造文献的领域适配小语言模型流水线

背景

随着人类对火星探索的深入，科学界对于将火星改造为适合人类居住的环境（即“火星地球化”，Mars Terraforming）的兴趣日益浓厚。然而，这一宏伟目标依赖于对火星大气、水文、表面化学、辐射环境以及空间特征的全面且深入的理解。

现有的科学知识分散在大量的学术文献中，这些文献包含了宝贵的信息和具有意义的定量约束条件，对于评估火星宜居性以及开展未来的改造研究至关重要。然而，非结构化的文本数据难以直接被计算机模型或量化研究利用。为了从海量科学文献中提取结构化、机器可读的知识，研究人员亟需一种高效的信息提取方法，以便将这些知识整合到下游应用中，如数字孪生（Digital Twins）和宜居性建模。

核心内容

本文介绍了 TerraMARS，这是一个端到端的信息提取流水线（Pipeline），旨在解决上述挑战。该流水线的核心目标是回答与火星地球化相关的问题，并将非结构化的火星科学文本转换为机器可读的结构化输出（JSON 格式）。

1. 数据收集与预处理

研究团队首先收集了一个开放获取（Open-access）的论文语料库。为了适应大语言模型的处理需求，采用了多阶段检索和分块（chunking）框架对数据进行预处理。这一框架确保了相关科学信息能够被有效地检索并切分为适合模型处理的片段。

2. 模型选择与领域适配

TerraMARS 流水线结合了领域适配的小语言模型（Small Language Model, SLM）。具体而言，研究团队选择了 Google Gemma 3 1B 作为基础模型。鉴于通用模型在特定科学领域的知识局限，团队利用量化低秩自适应（Quantized Low-Rank Adaptation, QLoRA）微调技术，针对火星特定的问答和信息提取数据集对该模型进行了领域适配。

3. 功能与输出

经过微调后的模型构成了 TerraMARS 流水线的核心，它能够执行以下任务：

领域问答：回答关于火星地球化的具体问题。
信息提取：从非结构化文本中提取关键实体和关系，并将其转换为 JSON 格式的结构化数据。

这种结构化的输出为将科学文献中的知识整合到下游应用（如火星数字孪生和宜居性建模）奠定了基础。

关键要点

端到端流水线：TerraMARS 是一个完整的系统，涵盖了从数据检索、分块、模型推理到结构化输出的全过程。
小模型策略：采用 Google Gemma 3 1B 这一参数量较小的模型，通过 QLoRA 技术进行高效微调，平衡了计算资源与领域性能。
QLoRA 微调：利用量化低秩自适应技术，在保持模型轻量化的同时，显著提升了模型在火星科学特定任务上的表现。
结构化输出：最终输出为 JSON 格式，便于计算机程序直接读取和处理，解决了非结构化文本难以被算法利用的问题。
应用导向：该流水线旨在服务于火星宜居性评估、数字孪生构建以及未来地球化研究等下游应用。
当前局限：虽然初步结果令人鼓舞，但研究指出仍需进一步提高提取的准确性和事实一致性（Factual Consistency）。

意义与影响

TerraMARS 的提出标志着人工智能在行星科学和极端环境工程领域应用的重要一步。

首先，它提供了一种标准化的方法，将非结构化的科学文献转化为机器可读的结构化数据。这种转化对于构建高精度的火星数字孪生至关重要，因为数字孪生需要大量精确、量化的环境参数作为输入。

其次，通过领域适配的小语言模型，TerraMARS 展示了如何在资源受限的情况下，利用开源模型解决高度专业化的科学问题。这种方法不仅适用于火星研究，也为其他领域（如地球科学、生物学）的知识提取提供了可借鉴的范式。

最后，尽管目前仍存在准确性方面的挑战，但 TerraMARS 为自动化科学发现和支持决策系统奠定了基础。随着提取准确率和事实一致性的提升，这类工具有望成为未来火星探索任务规划、资源评估和风险评估的核心基础设施。

查看原文 →arxiv.org