技术博客arXiv cs.AI·3 小时前

FactoryLLM：面向智能工厂的开源安全大模型评测平台

原标题：FactoryLLM: A Safe and Open-Source AI Playground for Evaluating LLMs in Smart Factories

速览

针对智能工厂故障诊断中跨设备文档分散的难题，研究提出FactoryLLM这一安全开源AI评测平台。该平台允许用户在本地运行开源大模型，避免敏感工业数据泄露，并通过RAGAS和LLM-as-a-Judge指标评估检索增强生成模型在多文档推理上的表现。案例显示，该平台能有效评估大模型在跨机器文档推理中的准确性，所有测试模型的基础性得分均超过0.88。

AI 深度解读

FactoryLLM：面向智能工厂的大语言模型安全评估沙盒

背景

在智能制造领域，故障诊断与恢复是一项极具挑战性的任务。现代智能工厂中的设备高度互联，关键的技术信息分散在多种不同机器的操作手册和维护文档中。当生产线出现故障时，技术人员往往需要跨设备、跨文档地检索和整合信息，这对传统的信息检索系统提出了极高要求。

近年来，大型语言模型（LLMs）凭借其强大的自然语言理解和推理能力，为解决这一复杂的信息整合问题提供了新的思路。然而，工业场景对数据隐私和安全性有着严苛的要求，直接将这些敏感的生产数据上传至公共云端模型存在巨大的泄露风险。此外，目前缺乏专门针对工业多文档推理场景的标准化评估工具，使得企业难以准确衡量不同 LLM 在特定工业场景下的实际表现。

核心内容

针对上述痛点，研究团队提出了 FactoryLLM，这是一个安全且开源的 AI 沙盒（Playground），旨在评估基于检索增强生成（RAG）的大语言模型在智能工厂环境下的性能。

1. 核心功能与架构 FactoryLLM 的设计初衷是让用户能够配置并测试不同的 LLM，重点评估其在处理来自制造流程中多台机器的多份文档时的推理能力。该系统支持用户通过界面配置 LLM 参数，并提供了双重的评估机制：

RAGAS 指标：用于评估检索增强生成系统的整体质量。
NVIDIA 的 LLM-as-a-Judge 指标：利用另一个强大的 LLM 作为裁判，对生成结果进行更细致的质量评判。

2. 安全性设计 “安全”是 FactoryLLM 的核心特性之一。考虑到工业数据的敏感性，该系统允许用户在本地或部署开源 LLM 进行运行。这意味着用户无需将敏感的生产数据、设备参数或维护记录分享给第三方云服务提供商，从而在一个受控的环境中完成实验和测试，有效保障了数据隐私。

3. 案例研究与实证结果 为了验证 FactoryLLM 的有效性，研究团队进行了一项案例研究，涉及一辆自主智能车辆（Autonomous Intelligent Vehicle）及其移动规划软件（Mobile Planner）。

测试数据：从约 600 页的跨机器文档中提取了 30 个维护查询。
评估对象：对三种不同的 LLM 进行了评估。
结果：评估结果显示，FactoryLLM 在跨机器文档推理方面非常有效。所有参与测试的模型在“接地性”（Groundedness，即答案是否严格基于检索到的文档内容，而非幻觉）得分上均超过了 0.88。这一高分表明，结合 RAG 技术的 LLM 能够准确地从分散的工业文档中提取关键信息并生成可靠的答案。

目前，FactoryLLM 的完整代码和文档已公开，供社区开发者在自己的特定制造场景中进行测试和定制。

关键要点

解决痛点：针对智能工厂中关键信息分散在多设备手册、难以整合的问题，提供基于 LLM 的解决方案。
双重评估体系：结合 RAGAS 和 NVIDIA 的 LLM-as-a-Judge 指标，全面评估模型在多文档推理中的表现。
数据隐私优先：支持本地化部署和开源模型运行，确保敏感工业数据不出域，满足工业级安全合规要求。
实证效果显著：在涉及自主车辆及其软件的案例中，测试模型在跨文档推理的接地性得分均高于 0.88，证明了其处理复杂工业文档的有效性。
开源开放：代码和文档完全公开，鼓励社区针对特定制造场景进行二次开发和测试。

意义与影响

FactoryLLM 的发布填补了工业 AI 应用中的一个重要空白。首先，它为工业界提供了一个标准化的基准测试平台，使得企业能够客观地比较不同 LLM 在特定工业任务中的优劣，降低了技术选型的风险。

其次，其“安全沙盒”的设计理念解决了工业数字化转型中的信任危机。通过强调本地化和数据不出域，FactoryLLM 消除了企业对数据泄露的顾虑，为 LLM 在核心生产环节的落地扫清了障碍。

最后，该项目的开源性质有助于加速 AI 技术在制造业的普及。通过提供可复现的代码和详细的文档，研究人员和工程师可以基于 FactoryLLM 快速构建针对特定工厂场景的定制化工具，推动智能工厂向更加智能化、自动化的方向演进。

查看原文 →arxiv.org