技术博客arXiv cs.AI·2 小时前

统一工业检测场景：发布百万级基准与RTVPNet模型

原标题：Unification of Closed-Open Industrial Detection Scenarios: New Large-Scale Benchmarks,Challenges and Baselines

速览

针对工业缺陷检测中数据稀缺和依赖人工提示的痛点，研究团队发布了包含超百万样本的MMIOC-1M基准，这是首个支持开放词汇和封闭集检测的统一大规模基准。同时提出RTVPNet模型，通过专家辅助域投影、能量基稀疏采样和双向文本视觉交互三大创新，实现无需人工干预的精细视觉提示生成。实验表明该模型在多项基准上达到最先进水平，为工业场景大模型提供了重要预训练数据。

AI 深度解读

统一封闭与开放工业检测场景：新的大规模基准、挑战与基线

背景

尽管大型视觉-语言模型（LVLMs）在自然视觉任务中取得了显著成功，但将其应用于工业缺陷检测仍面临巨大挑战。这种应用困境主要源于两个根本性的局限性：

数据稀缺性：缺乏覆盖多个领域、包含多样化缺陷类别的大规模工业数据集。现有的工业数据往往规模较小且领域单一，难以支撑通用大模型的训练需求。
交互与提示的局限性：传统方法严重依赖手动提示（如点、框、掩码）。这种依赖不仅引入了主观噪声，还缺乏文本与视觉之间的深度交互，导致模型难以实现细粒度的理解。

为了解决上述问题，研究团队引入了一个新的基准和相应的网络架构，旨在弥合自然视觉与工业视觉之间的鸿沟。

核心内容

本研究的核心贡献在于提出了一套完整的解决方案，包括大规模数据集、基准测试以及创新的神经网络架构。

1. MMIOC-1M：首个统一的大规模工业开放-封闭基准

研究团队发布了 MMIOC-1M（Large-Scale Multi-Modal Industrial Open-Closed benchmark），这是目前已知首个支持开放词汇（open-vocabulary）和封闭集（closed-set）工业检测的统一最大规模基准。

数据规模：包含超过 100 万 个样本。
分类体系：涵盖 14 个超类别（super-categories）、29 个工业场景以及 351 个缺陷子类别（defect subcategories）。
核心价值：MMIOC-1M 不仅为 LVLMs 在工业场景下的预训练提供了宝贵的数据支持，还统一了此前割裂的开放与封闭检测任务，为评估模型在复杂工业环境下的泛化能力提供了标准。

2. RTVPNet：细粒度文本-视觉提示网络

为了充分利用 MMIOC-1M 并解决工业检测中的痛点，作者提出了 RTVPNet（Refined Text-Visual Prompt Network）。该网络引入了三项关键创新：

专家辅助的领域投影机制（Expert-assisted domain projection mechanism）：该机制使得通用的视觉模型能够快速适应特定的工业领域。通过引入领域专家知识，模型能够更准确地理解工业场景中的细微差别，从而提升检测精度。
基于能量的稀疏采样策略（Energy-based sparse sampling strategy）：这是一种自动化的视觉提示生成方法。它无需人工干预，即可自动生成精炼的视觉提示。通过基于能量的采样，模型能够聚焦于最具信息量的区域，减少噪声干扰，提高检测效率。
双向文本-视觉交互模块（Bidirectional text-visual interaction module）：该模块增强了跨模态语义的对齐和理解能力。不同于单向的信息传递，双向交互允许文本描述指导视觉特征提取，同时视觉特征反过来修正和丰富文本语义，从而实现更细粒度的缺陷识别。

3. 实验结果

广泛的实验表明，RTVPNet 在多个基准测试中均取得了最先进（State-of-the-Art, SOTA）的性能：

MMIOC-1M：作为新提出的基准，RTVPNet 在此数据集上表现优异。
LVIS 和 COCO：在通用的大规模视觉检测基准上，RTVPNet 同样保持了领先的性能，同时维持了计算效率。

关键要点

数据突破：MMIOC-1M 是首个包含超 100 万样本、覆盖 14 个超类别和 351 个缺陷子类的统一工业检测基准，填补了大规模多模态工业数据的空白。
任务统一：该基准同时支持开放词汇检测（识别未见过的缺陷类型）和封闭集检测（识别预定义的缺陷类型），解决了以往研究仅关注单一场景的问题。
自动化提示生成：RTVPNet 提出的基于能量的稀疏采样策略，实现了视觉提示的自动生成，消除了对人工标注点、框或掩码的依赖，降低了主观噪声。
跨模态深度融合：通过双向文本-视觉交互模块，模型不仅“看”到了缺陷，还能通过文本语义深入理解缺陷的性质，提升了细粒度理解能力。
通用性与专业性兼顾：RTVPNet 不仅在工业基准 MMIOC-1M 上表现最佳，在通用基准 LVIS 和 COCO 上也达到了 SOTA 水平，证明了其方法的通用有效性。
开源贡献：数据集和代码已公开，促进了工业 AI 领域的进一步研究和发展。

意义与影响

这项研究对工业人工智能领域具有深远的影响：

推动 LVLMs 在工业界的落地：通过提供大规模、高质量的预训练数据（MMIOC-1M），本研究为大型视觉-语言模型在工业缺陷检测中的应用扫清了数据障碍，使得利用通用大模型解决垂直领域问题成为可能。
降低部署成本与门槛：RTVPNet 的自动化提示生成机制减少了对昂贵人工标注的依赖，降低了工业检测系统的部署和维护成本，提高了系统的可扩展性。
提升检测精度与鲁棒性：双向交互和领域投影机制显著提升了模型对复杂工业场景的理解能力，特别是在处理罕见缺陷或跨领域迁移时，表现出更强的鲁棒性。
建立新的评估标准：MMIOC-1M 的发布为工业检测领域提供了一个统一、大规模的评估平台，有助于更公平、全面地比较不同算法的性能，推动该领域的标准化进程。

总之，这项工作通过数据、算法和基准的三位一体创新，为统一封闭与开放工业检测场景奠定了坚实基础，是工业视觉从专用小模型向通用大模型演进的重要一步。

查看原文 →arxiv.org