← 返回信息流
技术博客arXiv cs.CL·12 小时前

利用大模型分析社交媒体数据评估建筑工人安全态度

原标题:Listening to the Workforce: Measuring Construction Worker Safety Attitudes from Social Media Discourse Using LLMs

速览

该研究提出并验证了建筑安全态度框架(CSAF),通过大语言模型对Reddit社区的自然语言讨论进行大规模分析。结果显示,该模型在识别工人安全态度的八个维度上,准确率与专家人工编码高度一致。这一工具能够追踪态度随时间的变化及背后的逻辑,为针对不安全行为根源的精准干预提供了实证依据。

AI 深度解读

倾听一线声音:利用大语言模型从社交媒体话语中测量建筑工人的安全态度

背景

在建筑行业中,工人的安全态度是决定现场是否严格执行防护措施、还是选择绕过安全规程的关键决定因素。然而,长期以来,要在大规模范围内准确测量这些态度一直是一个难以攻克的难题。

安全态度具有多维度的特性,且在不同话题背景下表现各异。更重要的是,这些态度往往最真实、最坦率地流露在工人之间的日常对话中。传统的问卷调查或访谈往往受到社会期许偏差的影响,难以捕捉到工人内心最真实的想法。随着 Reddit 等社交媒体平台上建筑工人社区(如 r/Construction 和 r/Roofing)的活跃,海量的自然语言数据为研究这一问题提供了新的契机。

核心内容

本研究提出并验证了“建筑安全态度框架”(Construction Safety Attitude Framework, CSAF),旨在通过大语言模型(LLM)从社交媒体话语中量化和分析建筑工人的安全态度。

1. CSAF 框架的构建与验证

CSAF 框架由两个核心部分组成:

  • 理论基础结构:基于现有理论,从八个维度对安全态度进行特征化描述。
  • 操作化编码本:用于在工人的自然语言话语中测量这八个维度的具体标准。

为了验证该框架的有效性,研究人员从 Reddit 的 r/Construction 社区收集了 250 篇帖子和评论,并由经过训练的编码员进行人工标注。结果显示,人工编码员之间达到了高度的一致性(Krippendorff's $\alpha$ = 0.85)。此外,通过成对提升度(pairwise lift)和条件概率分析,证实了这八个维度之间既相互关联又彼此独立。

2. 基于 LLM 的分类器开发

为了实现对该框架在大规模话语数据中的应用,研究人员将 CSAF 操作化为一个基于大语言模型(LLM)的分类器。

  • 在 r/Construction 上的表现:在 450 条贡献数据上,该分类器复现了专家级的人工编码结果,表现出极高的准确性(Cohen's $\kappa$ = 0.90,精确率 = 0.98,召回率 = 0.98)。
  • 跨领域迁移能力:在 400 条来自 r/Roofing(屋顶施工)社区的数据上进行迁移测试后,分类器依然保持了高准确率($\kappa$ = 0.89,精确率 = 0.98,召回率 = 0.97)。这表明该框架具有良好的泛化能力,能够适应不同细分工种的话语体系。

3. 价值证明案例研究

研究最后通过一个价值证明(proof-of-value)案例,将经过验证的分类器应用于 r/Roofing 社区的 10,346 条贡献数据。分析结果展示了 CSAF 框架的三大能力:

  • 多维度区分:能够根据安全话题的不同,区分出多维度的态度。
  • 动态追踪:能够追踪这些态度随时间的变化趋势。
  • 归因分析:能够追溯导致不良安全态度背后的推理逻辑。

关键要点

  • 理论驱动与数据驱动结合:CSAF 不仅依赖数据,更植根于理论,通过八个维度全面刻画安全态度,解决了以往测量维度单一或理论缺失的问题。
  • 高准确率的自动化测量:LLM 分类器在复现人工编码方面表现卓越($\kappa$ > 0.89),证明了 AI 在理解复杂、非结构化的工人自然语言话语方面的可靠性。
  • 跨工种的泛化能力:模型从 r/Construction 迁移到 r/Roofing 时性能未显著下降,说明该框架具有广泛的适用性,可推广至其他建筑细分领域。
  • 揭示态度背后的逻辑:研究不仅停留在态度分类,还能深入分析导致不安全态度的具体推理过程,为干预措施提供了具体的切入点。
  • 大规模数据可行性:成功处理了上万条社交媒体数据,证明了利用公开社交媒体数据进行大规模职业安全研究的技术可行性。

意义与影响

这项研究为职业安全领域提供了一个理论基础扎实、经实证检验的工具。通过从社交媒体中“倾听”工人的声音,研究人员和管理者可以更深入地理解导致不安全行为背后的心理和社会动因。

其核心影响在于为针对性干预措施提供了数据基础。传统的培训往往是一刀切的,而 CSAF 框架允许管理者识别特定群体、特定话题下的不良态度及其成因,从而设计出更精准、更有效的安全教育和干预策略,最终从源头上减少不安全实践,提升建筑工地整体安全水平。

查看原文 →arxiv.org