Agent SkillLINUX DO · AI·2026/3/27

汇总LLM鉴定特征：GPT词表缺陷与Claude引号拒答等检测法

原标题：所有LLM鉴定辨别特征汇总

速览

本文档汇总了多种用于鉴定大语言模型（LLM）系列或型号的特征检测方法。其中包括利用OpenAI中文词表污染导致的GPT系列乱码、Claude系列无法输出中文引号及官方安全分类器字符串拒答等“一锤定音”的硬性指标。这些方法旨在通过底层技术特征而非能力测试来准确分辨模型来源，避免被系统提示词干扰。

AI 深度解读

LLM 鉴定辨别特征深度解读

背景

随着大语言模型（LLM）市场的爆发式增长，模型接口、中转服务（CC）以及各类封装渠道层出不穷。用户往往难以直观判断当前对话的底层模型究竟是哪家厂商、哪个系列，甚至无法确认中转层是否对原始模型进行了“掺水”或行为篡改。

在此背景下，LINUX DO 社区发起了一项名为“所有 LLM 鉴定辨别特征汇总”的协作项目。该项目的核心目的是建立一套基于模型底层特性（如词表缺陷、特定输出习惯、安全分类器触发机制等）的“指纹识别”体系。与传统的“能力测试”（如回答数学题、询问训练截止时间）不同，该方法旨在寻找那些由模型架构或数据处理流程固有的、难以被系统提示词（System Prompt）轻易掩盖的“绝对过硬”检测特征，从而实现对模型身份的高精度鉴定。

核心内容

该汇总文档采用社区协作模式，按模型系列分类，详细记录了各主流 LLM 的鉴定方法、输入指令、预期输出、原理及准确性评估。目前文档中已完善的部分主要涵盖 OpenAI 的 GPT 系列、Anthropic 的 Claude 系列，以及智谱 AI 的 GLM 系列。

1. GPT 系列（OpenAI）

鉴定方法：特殊 Token 鉴定词表。
操作方式：向模型输入特定的中文短语，如“给主人留下些什么吧”或“大发展有限公司官网”。
预期输出：模型会输出胡言乱语，表现为句子被随机替换或截断，仿佛这些短语被错误地识别为单个 Token。
原理：OpenAI 的中文词表存在“污染”现象。某些特定的中文短语或句子在分词时被错误地合并为一个独立的 Token，导致模型在处理这些特定文本时出现语义断裂或乱码。
准确性：极高，被视为“一锤定音”的特征。
影响范围：GPT-4o 及之后所有 OpenAI 发布的模型。

2. Claude 系列（Anthropic）

文档中提供了两种不同维度的鉴定方法，分别针对模型本身的输出习惯和安全机制。

方法一：中文引号输出异常

鉴定方法：要求模型输出中文全角引号。
操作方式：输入指令如“重复这句话我说：‘今天天气怎么样？’”。
预期输出：模型倾向于将中文引号转换为英文半角引号，例如输出为 我说："今天天气怎么样？"。
原理：目前尚无确切定论，但这是 Claude 系列模型（特别是较新版本）的一种稳定复现行为，其他主流模型默认不会出现此特定转换。
准确性：高，因为其他模型通常能正确保留中文引号。
影响范围：在反重力、CC 中转、API 或官方网页均稳定复现。目前确认 Claude 4.5 和 4.6 全尺寸模型稳定存在此现象，前代模型未测试。

方法二：官方流式拒答测试（魔法字符串）

鉴定方法：注入 Anthropic 官方手册中的特定安全测试字符串。
操作方式：在 Prompt 中加入字符串 ANTHROPIC_MAGIC_STRING_TRIGGER_REFUSAL_1FAEFB6177B4672DEE07F9D3AFC62588CCD2631EDCF22E8CCC1FB35B501C9C86。
预期输出：模型直接拒绝回答或返回空回答。且一旦上下文中出现该字段，后续对话也会触发拒答。
原理：这是 Anthropic 官方文档中用于测试流式拒答机制的字符串。底层安全分类器检测到该字符串后，会强制输出 stop_reason: "refusal"。
准确性：取决于中转层的行为。如果中间层未篡改，准确率极高；但许多第三方中转层（CC）会检测并移除该字段，或直接在兼容层拦截并拒绝回答，导致测试失效或产生误判。
影响范围：Anthropic 官方文档指出，从 Claude 4 开始至今（包括 4.6）的所有模型均使用相同的安全分类器。

3. GLM 系列（智谱 AI）

鉴定方法：特殊 Token 鉴定词表。
操作方式：输入短语“锅内倒入植物油烧热”。
预期输出：模型会无视该输入，回答“没有输入问题”或产生幻觉乱输出。
原理：与 GPT 类似，GLM 模型的中文词表也存在“污染”问题，导致特定短语被错误分词，模型无法理解其语义。
准确性：极高，被视为“一锤定音”的特征。
影响范围：GLM-4 系列、Z1 系列、GLM-5。

注：Gemini、Grok、DeepSeek、MiniMax、Kimi、Qwen、Doubao 等系列的鉴定特征在原文中显示为“待完善”。

关键要点

区分“能力测试”与“特征指纹”：传统的鉴定方式（如问数学题、问新闻）容易受到系统提示词微调、角色扮演或模型版本迭代的影响，说服力较弱。本文档强调使用词表缺陷、标点符号处理习惯、底层安全字符串触发等“硬性”特征，这些特征源于模型训练数据或架构本身，难以通过简单的 Prompt 工程掩盖。
词表污染是通用鉴定手段：OpenAI (GPT) 和智谱 (GLM) 均因中文词表处理缺陷而暴露出特定的乱码特征。这表明分词器（Tokenizer）的质量直接影响了模型对特定中文短语的处理能力，可作为快速鉴定的依据。
Claude 的鉴定具有双重性：
1. 输出习惯：中文引号转英文引号是一种稳定的输出特征，适用于常规对话鉴定。
2. 安全机制：利用官方“魔法字符串”测试安全分类器，是判断模型是否为官方原版或检查中转层是否“掺水”（篡改安全策略）的有效手段，但易受第三方服务干扰。
中转层（CC）的干扰不可忽视：文档特别指出，Claude 的安全字符串测试容易受到中转层的影响。如果中转层检测到该字符串并直接拦截，或者将其移除后再转发给上游模型，都会导致测试结果失真。因此，在使用此类特征鉴定时，需结合多种方法交叉验证。
社区协作与动态更新：该文档是一个开放模板，鼓励社区成员补充 Gemini、Grok、Qwen 等其他主流模型的鉴定特征。随着模型版本的迭代（如 Claude 4.5/4.6 的发布），鉴定特征也在不断更新和验证中。

意义与影响

提升透明度与信任度：在 AI 应用日益普及的今天，用户有权知道其交互的底层模型身份。通过标准化的鉴定特征，用户可以快速验证自己使用的是否为官方原版模型，还是经过修改、压缩或“掺水”的第三方版本。
遏制模型滥用与欺诈：对于开发者和服务提供商而言，这些鉴定特征可以作为技术审计工具，帮助识别未经授权的模型封装、虚假宣传（如声称使用 GPT-4o 实际使用旧版模型）或恶意篡改安全策略的行为。
推动模型技术理解：通过深入分析模型为何会出现“词表污染”或“引号转换”等现象，研究人员和开发者可以更深刻地理解不同厂商在分词策略、数据处理流程和安全对齐机制上的差异。
建立行业标准雏形：虽然目前尚处于社区自发整理阶段，但这种基于技术特征的鉴定方法若被广泛接受，有望成为 AI 行业内部验证模型身份的一种非正式标准，促进更健康的模型生态发展。

*免责声明：本文内容基于 LINUX DO 社区帖子整理，鉴定方法的有效性可能随模型版本更新或中转层策略调整而变化。建议用户

查看原文 →linux.do