技术博客arXiv cs.CL·3 小时前

大模型安全数据提取基准测试：文本方案优于多模态

原标题：Benchmarking Large Language Models for Safety Data Extraction

速览

该研究对Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet和Llama 3.1-70B等大语言模型在安全数据表结构化信息提取任务中的表现进行了基准测试。结果显示，基于文本的处理流程在准确性、延迟和成本上均优于多模态方案，其中结合思维链提示的Gemini 1.5 Pro准确率最高达84%。然而，所有模型均未达到90%的行业部署门槛，表明通用大模型尚不足以直接用于无监督工业场景，未来需结合领域微调与人机协同验证。

AI 深度解读

基准测试大型语言模型在安全数据提取中的表现

背景

在工业安全领域，从安全数据表（Safety Data Sheets, SDS）中准确提取结构化信息一直是一个极具挑战性的任务。SDS 是化学品安全管理中的核心文档，包含毒性、易燃性、储存要求等关键安全参数。然而，由于 SDS 文档格式高度异构（不同厂商、不同地区、不同版本的排版差异巨大），传统的基于规则的方法往往难以适应这种多样性，导致提取效率低且错误率高。

随着大型语言模型（LLMs）的兴起，自动化信息提取成为可能。本研究旨在对当前最先进的大型语言模型进行基准测试，评估其在自动化 SDS 数据提取任务中的表现，并对比基于文本的处理流程与多模态处理流程的效果。

核心内容

本研究系统性地评估了四种主流大型语言模型：Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet 和 Llama 3.1-70B。评估框架涵盖了三种提示策略：零样本（zero-shot）、少样本（few-shot）和思维链（chain-of-thought）。

研究团队构建了一个庞大的评估数据集，共涉及超过 50,000 个被提取的数据字段。评估指标主要关注三个方面：

准确性（Accuracy）：提取结果与真实值的匹配程度。
延迟（Latency）：模型处理请求所需的时间。
成本（Cost）：调用模型的经济成本。

研究对比了两种主要的处理管道：

基于文本的处理（Text-based）：将文档内容转换为纯文本后进行提取。
多模态处理（Multimodal）：直接利用模型的多模态能力，同时处理文档的视觉布局（如图像、表格结构）和文本内容。

关键要点

文本处理优于多模态：在所有评估指标（准确性、延迟、成本）上，基于文本的提取方法一致地优于多模态处理方法。这表明对于 SDS 这类文档，单纯的视觉布局信息并未带来显著增益，甚至可能引入噪声。
最佳模型表现：Gemini 1.5 Pro 结合思维链（Chain-of-Thought）提示策略取得了最高的准确性，达到 84%。
其他模型排名：
- GPT-4o：准确性为 81%。
- Claude 3.7 Sonnet：准确性为 79%。
- Llama 3.1-70B：在文中未明确列出具体数值，但整体表现低于上述三个专有模型。
未达到部署阈值：没有任何模型能够超越 90% 的准确性阈值。这一阈值通常被认为是可靠部署到现实世界工业环境中的最低要求。
通用模型的局限性：通用大型语言模型目前尚不具备足够的鲁棒性，无法直接用于无需监督的工业级安全数据提取任务。
未来方向：尽管通用模型表现未达标，但其潜力巨大。未来的研究应聚焦于领域适应训练（domain-adapted training）、模型校准（model calibration）以及集成“人在回路”（Human-in-the-Loop）验证机制，以确保安全关键任务的可靠性。

意义与影响

这项研究对工业界和学术界具有重要的指导意义：

现实预期的管理：尽管 LLMs 在自然语言处理任务中表现出色，但在高可靠性要求的工业安全场景中，通用模型仍存在显著差距。84% 的最高准确率意味着每 100 个字段中仍有 16 个错误，这在涉及化学品安全时是不可接受的。
技术路线的选择：研究结果提示，在处理此类结构化文档提取时，简单的文本提取管道可能比复杂的多模态管道更具性价比和稳定性。
定制化训练的必要性：通用模型无法直接胜任此任务，强调了针对特定领域（如化学安全）进行微调（Fine-tuning）或领域适应训练的必要性。
人机协作的重要性：鉴于自动提取无法达到 90% 以上的可靠性，引入人类专家进行最终验证（Human-in-the-Loop）是确保工业安全数据准确性的必要环节。这并非技术的失败，而是当前技术阶段下最务实的工程解决方案。

查看原文 →arxiv.org