技术博客arXiv cs.AI·2 小时前

工业零样本缺陷检测新基准：发布MMIO数据集与RTVP方法

原标题：Zero-Shot Learning in Industrial Scenarios: New Large-Scale Benchmark, Challenges and Baseline

速览

针对工业场景与自然场景差异及数据稀缺问题，研究提出多模态工业开放数据集MMIO，包含8万+样本。同时推出精炼文本-视觉提示RTVP方法，通过专家引导适配和自动生成视觉提示，增强大模型泛化能力。该方法在零样本和封闭场景下均取得SOTA性能，为工业零样本学习提供重要基准。

大型视觉语言模型（Large Visual Language Models, LVLMs）在自然场景的视觉任务中取得了显著成功。然而，工业场景与自然场景之间存在显著差异，这使得将 LVLMs 直接应用于工业领域面临巨大挑战。

现有的 LVLMs 通常依赖用户提供的文本提示（prompts）来分割目标物体。在复杂的工业环境中，这种依赖往往导致性能次优，因为分割过程中容易包含大量无关像素，干扰了对缺陷或目标的准确识别。此外，工业领域高质量标注数据的稀缺性，也限制了 LVLMs 在工业场景中的深入应用和研究。

为了填补这一空白，研究人员提出了一种开放的工业数据集以及一种改进的文本-视觉提示方法（Refined Text-Visual Prompt, RTVP），旨在解决工业场景下的零样本缺陷检测问题。

本研究主要围绕构建大规模多模态工业数据集 MMIO 以及提出 RTVP 方法展开，具体内容包括以下三个方面：

研究团队构建了 Multi-Modal Industrial Open Dataset (MMIO)，这是首个面向工业零样本学习的大规模多场景预训练数据集。

基于 MMIO 数据集，研究提出了一种专门针对工业零样本任务的 Refined Text-Visual Prompt (RTVP) 方法。该方法具有两大核心优势：

专家引导的大模型领域适应机制：研究设计了一种基于 Mobile-SAM（Segment Anything Model 的移动版本）的工业零样本方法。通过引入专家引导的大模型领域适应机制，增强了大型模型在工业场景中的泛化能力，使其能更好地适应工业数据的特性。
自动生成的视觉提示与图文交互优化：传统的 LVLMs 往往忽略了文本提示与视觉提示之间的深层交互。RTVP 能够直接从图像中自动生成视觉提示，并显式地考虑文本与视觉提示的交互作用。这种机制显著提升了模型对视觉内容和文本内容的联合理解能力，从而更精准地定位工业缺陷。

在 MMIO 数据集的测试中，RTVP 方法取得了当前最佳（SOTA）的性能表现：

填补数据空白：现有的 LVLMs 在工业领域的应用受限于数据稀缺，MMIO 数据集（80K+ 样本，6 大 18 小类）为工业零样本学习提供了首个大规模多场景预训练基准。
解决提示依赖痛点：传统方法依赖用户提示导致无关像素干扰，RTVP 通过自动生成视觉提示并优化图文交互，解决了这一痛点。
技术架构创新：结合专家引导的大模型领域适应机制与 Mobile-SAM，提升了模型在工业复杂环境下的泛化能力。
性能突破：在零样本缺陷检测任务中，RTVP 实现了 42.2% 的 AP，证明了其在开放场景下的有效性。

这项研究对工业人工智能领域具有重要的理论和实践意义：

推动工业 AI 的通用化：通过提供 MMIO 这一大规模基准数据集，降低了工业缺陷检测模型的训练门槛，促进了开放模型在垂直领域的落地。
提升零样本学习能力：证明了通过改进提示工程（Prompt Engineering）和引入领域适应机制，可以显著提升 LVLMs 在缺乏标注数据的新类别或缺陷类型上的识别能力。
优化人机交互效率：RTVP 自动从图像生成视觉提示的能力，减少了对人工编写复杂提示词的依赖，提高了工业检测系统的自动化水平和易用性。
为后续研究奠定基础：该工作提出的基线（Baseline）和挑战分析，为未来研究工业场景下的多模态大模型提供了重要的参考标准和数据支持。