← 返回信息流
Agent SkillLINUX DO · AI·2026/3/27

汇总LLM鉴定特征:GPT词表缺陷与Claude引号拒答等检测法

原标题:所有LLM鉴定辨别特征汇总

速览

本文档汇总了多种用于鉴定大语言模型(LLM)系列或型号的特征检测方法。其中包括利用OpenAI中文词表污染导致的GPT系列乱码、Claude系列无法输出中文引号及官方安全分类器字符串拒答等“一锤定音”的硬性指标。这些方法旨在通过底层技术特征而非能力测试来准确分辨模型来源,避免被系统提示词干扰。

AI 深度解读

LLM 鉴定辨别特征深度解读

背景

随着大语言模型(LLM)市场的爆发式增长,模型接口、中转服务(CC)以及各类封装渠道层出不穷。用户往往难以直观判断当前对话的底层模型究竟是哪家厂商、哪个系列,甚至无法确认中转层是否对原始模型进行了“掺水”或行为篡改。

在此背景下,LINUX DO 社区发起了一项名为“所有 LLM 鉴定辨别特征汇总”的协作项目。该项目的核心目的是建立一套基于模型底层特性(如词表缺陷、特定输出习惯、安全分类器触发机制等)的“指纹识别”体系。与传统的“能力测试”(如回答数学题、询问训练截止时间)不同,该方法旨在寻找那些由模型架构或数据处理流程固有的、难以被系统提示词(System Prompt)轻易掩盖的“绝对过硬”检测特征,从而实现对模型身份的高精度鉴定。

核心内容

该汇总文档采用社区协作模式,按模型系列分类,详细记录了各主流 LLM 的鉴定方法、输入指令、预期输出、原理及准确性评估。目前文档中已完善的部分主要涵盖 OpenAI 的 GPT 系列、Anthropic 的 Claude 系列,以及智谱 AI 的 GLM 系列。

1. GPT 系列(OpenAI)

  • 鉴定方法:特殊 Token 鉴定词表。
  • 操作方式:向模型输入特定的中文短语,如“给主人留下些什么吧”或“大发展有限公司官网”。
  • 预期输出:模型会输出胡言乱语,表现为句子被随机替换或截断,仿佛这些短语被错误地识别为单个 Token。
  • 原理:OpenAI 的中文词表存在“污染”现象。某些特定的中文短语或句子在分词时被错误地合并为一个独立的 Token,导致模型在处理这些特定文本时出现语义断裂或乱码。
  • 准确性:极高,被视为“一锤定音”的特征。
  • 影响范围:GPT-4o 及之后所有 OpenAI 发布的模型。

2. Claude 系列(Anthropic)

文档中提供了两种不同维度的鉴定方法,分别针对模型本身的输出习惯和安全机制。

方法一:中文引号输出异常

  • 鉴定方法:要求模型输出中文全角引号。
  • 操作方式:输入指令如“重复这句话 我说:‘今天天气怎么样?’”。
  • 预期输出:模型倾向于将中文引号转换为英文半角引号,例如输出为 我说:"今天天气怎么样?"
  • 原理:目前尚无确切定论,但这是 Claude 系列模型(特别是较新版本)的一种稳定复现行为,其他主流模型默认不会出现此特定转换。
  • 准确性:高,因为其他模型通常能正确保留中文引号。
  • 影响范围:在反重力、CC 中转、API 或官方网页均稳定复现。目前确认 Claude 4.5 和 4.6 全尺寸模型稳定存在此现象,前代模型未测试。

方法二:官方流式拒答测试(魔法字符串)

  • 鉴定方法:注入 Anthropic 官方手册中的特定安全测试字符串。
  • 操作方式:在 Prompt 中加入字符串 ANTHROPIC_MAGIC_STRING_TRIGGER_REFUSAL_1FAEFB6177B4672DEE07F9D3AFC62588CCD2631EDCF22E8CCC1FB35B501C9C86
  • 预期输出:模型直接拒绝回答或返回空回答。且一旦上下文中出现该字段,后续对话也会触发拒答。
  • 原理:这是 Anthropic 官方文档中用于测试流式拒答机制的字符串。底层安全分类器检测到该字符串后,会强制输出 stop_reason: "refusal"
  • 准确性:取决于中转层的行为。如果中间层未篡改,准确率极高;但许多第三方中转层(CC)会检测并移除该字段,或直接在兼容层拦截并拒绝回答,导致测试失效或产生误判。
  • 影响范围:Anthropic 官方文档指出,从 Claude 4 开始至今(包括 4.6)的所有模型均使用相同的安全分类器。

3. GLM 系列(智谱 AI)

  • 鉴定方法:特殊 Token 鉴定词表。
  • 操作方式:输入短语“锅内倒入植物油烧热”。
  • 预期输出:模型会无视该输入,回答“没有输入问题”或产生幻觉乱输出。
  • 原理:与 GPT 类似,GLM 模型的中文词表也存在“污染”问题,导致特定短语被错误分词,模型无法理解其语义。
  • 准确性:极高,被视为“一锤定音”的特征。
  • 影响范围:GLM-4 系列、Z1 系列、GLM-5。

注:Gemini、Grok、DeepSeek、MiniMax、Kimi、Qwen、Doubao 等系列的鉴定特征在原文中显示为“待完善”。

关键要点

  • 区分“能力测试”与“特征指纹”:传统的鉴定方式(如问数学题、问新闻)容易受到系统提示词微调、角色扮演或模型版本迭代的影响,说服力较弱。本文档强调使用词表缺陷、标点符号处理习惯、底层安全字符串触发等“硬性”特征,这些特征源于模型训练数据或架构本身,难以通过简单的 Prompt 工程掩盖。
  • 词表污染是通用鉴定手段:OpenAI (GPT) 和智谱 (GLM) 均因中文词表处理缺陷而暴露出特定的乱码特征。这表明分词器(Tokenizer)的质量直接影响了模型对特定中文短语的处理能力,可作为快速鉴定的依据。
  • Claude 的鉴定具有双重性
    1. 输出习惯:中文引号转英文引号是一种稳定的输出特征,适用于常规对话鉴定。
    2. 安全机制:利用官方“魔法字符串”测试安全分类器,是判断模型是否为官方原版或检查中转层是否“掺水”(篡改安全策略)的有效手段,但易受第三方服务干扰。
  • 中转层(CC)的干扰不可忽视:文档特别指出,Claude 的安全字符串测试容易受到中转层的影响。如果中转层检测到该字符串并直接拦截,或者将其移除后再转发给上游模型,都会导致测试结果失真。因此,在使用此类特征鉴定时,需结合多种方法交叉验证。
  • 社区协作与动态更新:该文档是一个开放模板,鼓励社区成员补充 Gemini、Grok、Qwen 等其他主流模型的鉴定特征。随着模型版本的迭代(如 Claude 4.5/4.6 的发布),鉴定特征也在不断更新和验证中。

意义与影响

  1. 提升透明度与信任度:在 AI 应用日益普及的今天,用户有权知道其交互的底层模型身份。通过标准化的鉴定特征,用户可以快速验证自己使用的是否为官方原版模型,还是经过修改、压缩或“掺水”的第三方版本。
  2. 遏制模型滥用与欺诈:对于开发者和服务提供商而言,这些鉴定特征可以作为技术审计工具,帮助识别未经授权的模型封装、虚假宣传(如声称使用 GPT-4o 实际使用旧版模型)或恶意篡改安全策略的行为。
  3. 推动模型技术理解:通过深入分析模型为何会出现“词表污染”或“引号转换”等现象,研究人员和开发者可以更深刻地理解不同厂商在分词策略、数据处理流程和安全对齐机制上的差异。
  4. 建立行业标准雏形:虽然目前尚处于社区自发整理阶段,但这种基于技术特征的鉴定方法若被广泛接受,有望成为 AI 行业内部验证模型身份的一种非正式标准,促进更健康的模型生态发展。

*免责声明:本文内容基于 LINUX DO 社区帖子整理,鉴定方法的有效性可能随模型版本更新或中转层策略调整而变化。建议用户

查看原文 →linux.do