深入解析 Pangram 3.3.2 的内部表征
速览
本文深入分析了 Pangram 3.3.2 模型的内部表征结构。研究揭示了该模型在处理复杂任务时的内部运作机制。这有助于理解大语言模型的知识存储与推理过程。
AI 深度解读
探索 Pangram 3.3.2 的内部表征
背景
自 2022 年 ChatGPT 问世以来,AI 辅助写作以惊人的速度扩张。由于 AI 生成的文本如今充斥于我们阅读的各类内容中,一个显而易见的事实是:当某些形式的写作由机器生产时,其价值会大打折扣。在学术界,论文旨在培养学生的推理能力;在商业市场中,产品评论之所以有价值,是因为它们反映了真实用户的体验。
Pangram 是一家研究公司,致力于解决这一问题,构建最先进的 AI 检测模型。其旗舰产品是一款 AI 文本检测模型,具有行业领先的低误报率、多语言处理能力,并能区分“AI 生成”与“AI 辅助”。
自 2024 年发布首份白皮书以来,Pangram 的研究人员见证了 AI 技术的浪潮更迭。他们曾与过于严格的内容过滤器斗争,经历过模式崩溃(mode collapse),并避开了连字符(em-dashes)和“delve”等 AI 高频词汇的干扰。Pangram 的旗舰模型是一个针对序列分类任务进行微调的大型语言模型(LLM)。值得注意的是,该模型不使用困惑度(perplexity)或突发性(burstiness)等自定义指标,也不进行任何手动特征提取。虽然 Pangram 面向客户推出了名为 "AI Phrases" 的产品,用于告知用户哪些短语更常出现在 AI 文本中,但这些信息并未直接作为模型的训练特征。
随着研究的深入,研究人员产生了好奇:模型究竟“看”到了什么?对于研究人员而言,理解模型的内部表征至关重要,这有助于防止模型走捷径、修正非预期的模型行为,并深入理解该问题。本文介绍了 Pangram 使用文档级分析进行的初步可解释性(Interpretability)工作。
核心内容
数据集与模型范围
为了构建可解释性数据集,Pangram 从生产训练集中提取了域内保留样本。该交互式探索器使用了一个平衡的 5,000 文档子集,人类和 AI 生成的文档各占一半,涵盖了网络中 20 个偶数层。AI 样本涵盖了用于分类探针的六个模型家族中的多种变体。
涉及的模型家族包括:
- Anthropic: Claude 3.7 Sonnet, Claude Sonnet 4, Claude Sonnet 4.5, Claude Opus 4, Claude Opus 4.1, Claude Opus 4.5
- OpenAI: GPT-3.5 Turbo (Nov ’23, Jan ’24), GPT-4 (Mar ’23, Jun ’23), GPT-4o, GPT-5, GPT-5.1, GPT-5.2, o1
- Google: Gemini 2.0 Flash, Gemini 2.5 Flash, Gemini 2.5 Pro, Gemini 3 Pro
- DeepSeek: DeepSeek R1, DeepSeek V3
- Qwen: Qwen 2.5 7B, Qwen 2.5 72B, Qwen 3 235B
- Meta: Llama 3.1 8B, Llama 3.1 70B
数据来源领域包括: 新闻、科学摘要、产品评论、商业评论、Reddit 创意写作、Reddit ELI5(解释给我听)、书籍(自出版)、书籍(古腾堡计划)、维基百科(英语)、维基百科(多语言)、Lang-8(非母语英语学习者)。
Pangram 3.3.2 概述
Pangram 3.3.2 是 Pangram Labs 于 2026 年发布的 AI 检测模型。它使用了与 Pangram 3.3 相同的底层模型,但修复了后续的性能提升 bug。Pangram 3.3 取代了 Pangram 3.2,提高了对较新 LLM 输出、人性化文本和长篇幅 AI 生成内容的召回率,同时降低了针对非母语英语写作的误报率。
方法论
激活值提取 (Activations)
Pangram 的 EditLens 架构是一个基于桶的分类系统,最终坍缩为一个单一的 ai_assistance_score。在本项目中,研究人员丢弃了模型的最终读数,转而关注模型学习到的内部表征。为了探测这些表征,研究人员通过给定输入文档完成前向传播,并保存模型在多个内部层的隐藏表示。具体而言,提取了网络中每个偶数层的每个文档的激活值。
降维技术 (Dimensionality Reduction) 每个提取的激活向量维度为 5,120 维。为了更好地理解这些表征,研究采用了多种降维技术:
- PCA (主成分分析): 最简单的线性投影,寻找激活空间中最大方差的方向。研究发现,在网络末端,大部分方差包含在第 1 和第 2 主成分中,因此将其绘制在一起。
- UMAP: 提供非线性视图,旨在保留邻域结构。如果两个文档在模型内部空间中接近,UMAP 会尝试在 2D 空间中保持它们的接近性。但不应过度解读具体的轴和簇之间的距离。
- t-SNE: 另一种擅长揭示局部簇的非线性投影方法。在此项目中,使用 t-SNE 来询问随着网络加深,具有语义重要性的组(如模型家族或人类/AI 标签)是否变得可见地聚类。
线性探针 (Linear Probes) 研究人员使用线性探针来量化从降维方法中观察到的定性结果。对于每一层,研究人员询问一个简单的分类器是否可以从该层的激活向量中恢复目标标签。高探针准确率意味着相关的区分已经编码在表征空间的线性可访问方向中。
实验结果与分析
1. AI 检测任务:二元准确性
为了理解网络过程中最终类别分离是如何实现的,研究人员在每一层训练线性探针。训练数据为 500 个样本(人类和 AI 各半),按 80:20 划分训练/测试集。
- 早期表现强劲: 即使在网络早期,性能已经很强:在第 2 层之后直接达到 0.83 的准确率。这符合直觉,因为“词袋”模型通常是 AI 检测任务的可接受基线。
- 全程提升: 随着网络加深,准确率持续增强,在第 24 层达到 1.0 的顶峰。
- 可视化验证: 这种分离在所有三种降维方法中均清晰可见。
2. LLM 分类:意外的模型家族聚类
在 t-SNE 和 UMAP 图中,研究人员注意到文档似乎按照生成它们的模型进行聚类。这是一个令人惊讶的发现。
- 无监督涌现: Pangram 3.3.2 的训练过程中,没有提供任何对应于 AI 文档原始来源模型的标签。旧版本的 Pangram 曾有一个单独的 LLM 分类头,但该任务早已弃用。
- 层级涌现: 尽管如此,围绕原始模型家族的簇形成了。更有趣的是,这些簇似乎随着网络层的加深而逐渐显现。
- 量化验证: 为了量化这一现象,研究人员在六个模型家族(Anthropic, OpenAI, Google, Qwen, Llama, DeepSeek)上训练了一个分类器,每个家族 500 个样本,共 3,000 个样本。结果显示,仅使用 Pangram 的激活值,就能训练出一个能够分类文档原始模型家族的探针,最高 top-1 准确率达到 91%。
3. 涌现并非必然:版本对比
研究人员发现,“LLM 分类”能力的涌现是该项目中在不同模型间差异最大的发现之一。
- 版本差异: 对比 Pangram 3.1、3.2 和 3.3.2 的聚类行为发现,尽管 Pangram 3.2 在内部评估中对二元人类-AI 任务的表现优于 3.1,但其整体聚类定义不如 3.1 或 3.3.2 清晰。
- 探针性能: 在 LLM 分类器探针的对比中,三个版本均提升了 top-1 准确率,但 3.3.2 展现了更清晰的模型家族几何结构。
