← 返回信息流
技术博客arXiv cs.AI·1 天前

SciRisk-Bench:面向AI4Science安全的风险维度基准

原标题:SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

速览

随着大语言模型深入AI for Science工作流,评估其科学能力之外的安全风险变得迫切。现有数据集对潜在风险维度定义不足,为此研究者推出SciRisk-Bench基准。该基准涵盖7个学科、31个子学科及10个风险维度,通过多维度实验诊断科学模型的安全短板。

AI 深度解读

SciRisk-Bench:面向 AI4Science 安全的风险维度感知基准测试

背景

随着大语言模型(LLMs)深度嵌入“AI for Science”(AI4Science,即人工智能驱动的科学发现)的工作流中,其应用场景已从简单的科学问答和文献分析,扩展至实验室规划乃至自主科学发现等高风险领域。这种技术渗透在提升科研效率的同时,也引入了新的安全隐患。

现有的评估体系往往侧重于模型的科学专业能力,却忽视了模型在高风险科学语境下识别和规避风险的能力。虽然目前存在若干针对 AI4Science 的安全数据集,涵盖了多个学科和任务格式,但这些数据集对底层的“风险维度”定义模糊,缺乏细粒度的结构化评估。因此,业界急需一种能够同时评估科学能力与安全风险的基准测试,以明确模型在关键科学场景中的安全边界。

核心内容

为了解决上述问题,研究人员提出了 SciRisk-Bench,这是一个专为 AI4Science 安全设计的基准测试框架。该基准的核心创新在于从两个互补的视角对模型进行全方位评估:

  1. 显式风险维度(Explicit Risk Dimensions):不仅关注模型是否“知道”科学事实,更关注模型是否识别出潜在的危险并予以规避。
  2. 科学学科分类(Scientific Disciplines):将评估范围细化到具体的学科领域,以捕捉不同科学领域特有的安全风险。

数据规模与结构

SciRisk-Bench 构建了一个多维度的评估矩阵,具体包含:

  • 7 个主要学科:覆盖自然科学的主要分支。
  • 31 个子学科:进一步细化领域特异性。
  • 10 个风险维度:定义具体的安全威胁类型(如生物危害、化学泄漏、伦理违规等,具体维度需参考原文详细定义,此处依据摘要概括为通用风险类别)。

实验评估

研究团队利用 SciRisk-Bench 对两类模型进行了系统性评估:

  • 主流通用大语言模型:如 GPT-4、Llama 等通用基座模型。
  • 面向科学的专用大语言模型:经过科学数据微调或专门设计的科学领域模型。

评估结果不仅提供了整体安全评分,还实现了细粒度的诊断,揭示了模型在特定风险维度、特定学科甚至子学科层面的具体不安全表现。

关键要点

  • 填补评估空白:现有 AI4Science 安全数据集缺乏对“风险维度”的明确定义,SciRisk-Bench 通过引入显式风险维度,解决了这一结构性缺失。
  • 双重视角评估:同时考量“科学学科”和“风险维度”,使得安全评估更加立体和精准,避免了单一维度评估带来的盲区。
  • 细粒度诊断能力:该基准支持在学科、子学科和风险维度的交叉点上对模型进行定位,能够精准指出模型在哪些具体场景下存在安全隐患。
  • 广泛的覆盖范围:涵盖 7 个主要学科、31 个子学科和 10 个风险维度,确保了评估的全面性和代表性。
  • 对比分析价值:通过对比主流通用模型与科学专用模型的表现,揭示了当前科学领域模型在安全性方面可能存在的特定弱点或优势。

意义与影响

SciRisk-Bench 的发布标志着 AI4Science 安全评估从“粗放式”向“精细化”迈出了关键一步。

  1. 提升科研安全性:在涉及实验室规划、自主实验等高风险场景中,明确的基准测试有助于筛选出具备足够风险意识的模型,防止因模型幻觉或无知导致的灾难性后果(如合成危险物质、泄露敏感生物数据等)。
  2. 指导模型迭代优化:通过细粒度的诊断结果,模型开发者可以针对性地加强模型在特定风险维度或学科领域的对齐训练(Alignment Training),从而提升模型的整体鲁棒性。
  3. 建立行业标准:SciRisk-Bench 为 AI4Science 领域提供了一个标准化的安全评估工具,有助于建立行业通用的安全基线,促进负责任的人工智能在科学研究中的应用。
  4. 促进跨学科合作:该基准融合了计算机科学、安全伦理和多个自然科学领域的知识,推动了跨学科在 AI 安全领域的深度合作。

总之,SciRisk-Bench 不仅是一个测试工具,更是确保 AI 在科学探索中“行稳致远”的重要基础设施。

查看原文 →arxiv.org