AI 资讯雷峰网·3 小时前

全球首份大语言模型安全防范能力测评报告在北京发布

速览

《全球大语言模型安全防范能力测评报告（2026）》由东壁科技数据有限责任公司与上海财经大学数字经济学院联合编制，这是全球首份专针对科技高风险场景的测评报告。报告使用313条真实高风险测试集，结合东壁科技文献数据平台构建RAG参考，考察模型在正常科研学习与潜在滥用之间的边界。报告还同步发布多维度安全榜单，揭示场景伪装等攻击模式的弱点，并强调科技安全治理需同时关注意图识别、信息披露尺度和可靠输出，避免过度拒答或防御不足。

AI 深度解读

背景

大语言模型正逐步成为公众获取科技知识、理解科技概念和日常使用的重要工具。然而，这些模型能否有效辨别善恶、识别用户真实意图、理解具体语境、控制输出粒度，并在知识普惠价值与公共安全之间维持稳定边界，仍存在不确定性。2026年7月2日，在北京举行的2026全球数字经济大会云智算安全论坛上，《全球大语言模型安全防范能力测评报告（2026）》正式发布。该报告由东壁科技数据有限责任公司联合上海财经大学数字经济学院共同研发，基于一套中国机构自主建立的科学测评方法体系，对全球主要大语言模型进行了统一标准的“体检”。报告首度对科技类高风险问题进行了专项测评，为大模型安全治理提供了依据。

核心内容

报告以313条科技类高风险问题作为测试集，覆盖38个国内外主要大语言模型，重点考察模型在正常科技学习、科研等防护需求与潜在违法犯罪滥用之间能否保持稳定、安全且可解释的边界。报告同步发布了多维度安全实力排名。

测评结果显示，多数模型具备基础拒答能力，直接攻击总体成功率为7.6%。但在特定高级攻击下，安全边界明显承压。具体而言，场景伪装加示例诱导组合攻击成功率最高，达53.8%；其次是场景伪装（51.3%）、前缀注入攻击（43.4%）和情感伪装（30.7%）；情感伪装加示例诱导最低，也达到26.5%。赵琳指出，场景伪装是最值得关注的攻击形态之一，“合法授权”“安全研究”“攻防演练”等合法叙事比单纯情绪求助更易削弱模型安全边界；示例诱导的影响则视叠加方式而定，叠加在场景伪装中会显著增加越狱成功率，叠加在情感伪装中则反而更易被模型识别。

此外，模型意图识别能力仍不充分。在伪装类样本中，善意问题拒答率仅30.6%，恶意问题回答率高达29.7%，表明过度防御与防御不足并存。模型尚未稳定掌握科技双用途语境下的差异化响应能力。一旦被诱导回答，模型在风险披露控制上也存在不足，常未能有效切断从一般知识到现实实施的关键连接。

科技内容可靠性与安全风险存在明显张力。已回答样本中，80.5%达到较可靠水平，55.1%同时具备较高可靠性和较高滥用风险。对恶意请求而言，可靠性越高并不一定越安全。赵琳强调，关键在于能否将可靠知识限制在防护、合规和教育范围内。

报告依托显性攻击、越狱对抗、意图识别、风险管控、知识可靠性五大维度，量化打分后发布了38款海内外主流大语言模型的多维度安全榜单。

在无伪装的直接攻击测试中，Anthropic旗下三款Claude模型实现100%拒答，领跑行业。OpenAI gpt-5.4-mini、阿里通义千问 qwen3.5-122b-a10b紧随其后。轻量化开源模型如Mistral-small等基础防护垫底。

在综合越狱攻击防护排名中，Claude全系列三款模型仍占据前三位，国内MiniMax-M3、OpenAI gpt-5.4-mini分列第四、第五。即使面对“安全演练、科研实验”外壳的诱导，Claude系列仍能稳守边界。字节豆包轻量化开源模型 doubao-seed-2-0-mini 在场景伪装加示例诱导场景下安全边界衰减最为突出。

在恶意伪装意图识别维度，Claude全系列、MiniMax-M3、gpt-5.4-mini 能力领跑行业，但榜单前列模型的善意问题拒答率同步走高，存在过度防御现象。大量中小开源模型则难以区分意图，恶意伪装提问易被放行。

滥用风险可控性榜单显示，OpenAI gpt-5.4-mini 以3.52分均分位居第一，Claude-haiku、gpt-5.5、阿里通义千问 qwen3.6-27b、qwen3.6-flash 紧随其后。

科技内容可靠性榜单中，OpenAI gpt-5.5 以3.52分均分拿下首位，月之暗面 Kimi-k2.6、阿里通义千问 3.7-max旗舰闭源模型、qwen3.6-35b、qwen3.6-27b 依次排名前列，国内大规模闭源模型专业科技内容准确度已达行业第一梯队。

不同模型属性呈现系统性差异：国外、闭源和大规模模型在恶意伪装拦截、越狱稳健性和回答后风险控制上整体更优，但安全性与可用性存在张力；开源、小规模及部分国内模型在伪装攻击下更易被诱导。

为平衡AI知识普惠价值与公共安全底线，报告提出治理路径：坚持内生化原则和敏捷化原则，扩展测评指标体系，建议模型在高风险科技主题下建立更细的安全回答范式，对善意学习请求提供概念解释、风险提示、合规边界和安全替代路径，对中性请求主动澄清目的和使用环境，对恶意请求拒绝可执行细节并转向防护、法律后果、求助渠道或安全教育内容。同时构建多元共治机制。

关键要点

《全球大语言模型安全防范能力测评报告（2026）》由东壁科技数据有限责任公司联合上海财经大学数字经济学院共同研发，是全球首份大语言模型科技安全专项测评报告和首份科技向善导向测评报告。
报告测试集含313条科技类高风险问题，覆盖38个国内外模型，采用真实科技文献作为RAG检索参考（94,108份文献+34,452条百科条目），覆盖意图识别、滥用风险可控性和科技内容可靠性三个维度。
多数模型基础拒答能力较强（直接攻击成功率7.6%），但场景伪装+示例诱导等复合攻击下安全边界承压，攻击成功率最高53.8%。
模型意图识别不充分：善意问题拒答率仅30.6%，恶意问题回答率29.7%，存在过度防御与防御不足并存现象。
科技内容可靠性与滥用风险存在张力：已回答样本中80.5%可靠，55.1%同时高可靠与高风险，回答后风险披露不足。
多维度榜单显示，Claude全系列在多数场景下领先，OpenAI gpt-5.4-mini和阿里通义千问 qwen系列在特定维度突出，国外闭源大规模模型整体更优但存在可用性张力。
报告建议治理目标为拒绝危险能力增益而非拒绝科技知识本身，建立持续红队机制，并扩展测评指标至至少七大维度。

意义与影响

这份报告立足真实风险与真实案件场景，首次针对科技类高风险问题构建专项测评，填补了现有测评体系在通用内容安全、极端能力阈值和真实滥用语境覆盖不足的缺口。它从单纯“拒答率排行榜”转向综合风险评价，为模型企业、第三方测评机构、监管部门和行业专家提供了可操作的治理参考。

报告提出的治理建议强调将安全能力内生化、构建多元共治机制，并细化回答范式，旨在既保护正当科技学习、科研和防护需求，又避免模型输出形成对现实危险行为的能力增益。未来，东壁科技数据计划持续完善测试集，覆盖更多领域（如工程控制、深度伪造、自动化智能体、实验室安全等），并加强多轮对话、工具调用、代码执行、多模态输入等复杂交互场景的测评，为教育科研机构安全使用人工智能提供更具参考依据的政策依据。

报告的发布标志着大模型安全治理进入从单一指标向综合能力评价的深化阶段，对于促进AI技术健康发展、平衡普惠价值与安全底线具有重要现实意义。

查看原文 →leiphone.com

全球首份大语言模型安全防范能力测评报告在北京发布

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐