AI 资讯Hacker News·1 天前

深入解析噪声对比估计：原理与意义

原标题：Demystifying Noise Contrastive Estimation

速览

噪声对比估计（NCE）是一种用于训练概率模型的统计方法，旨在解决归一化常数难以计算的问题。该方法通过引入噪声分布，将生成模型训练转化为判别任务，从而显著提升训练效率。NCE在自然语言处理、语音识别及生成模型等领域具有广泛应用，是理解现代AI算法的重要基础。

AI 深度解读

去魅噪声对比估计（Noise Contrastive Estimation）：从理论到实践的深度解读

本文基于 Hacker News 上关于噪声对比估计（NCE）及其变体 InfoNCE 的技术文档进行深度解读与翻译。NCE 及其衍生方法是解决大规模分类问题中归一化常数（Partition Function）计算难题的核心技术，也是现代对比学习（Contrastive Learning）和生成模型的基石。

背景

在机器学习中，尤其是语言建模和生成模型领域，我们经常需要估计条件概率分布 $p_\theta(x \mid c)$，即在给定上下文 $c$ 的情况下，数据点 $x$ 出现的概率。

然而，直接计算这个概率面临一个巨大的计算障碍：归一化常数（也称为配分函数，Partition Function）$Z_\theta(c)$。公式如下：

$$p_{\theta}(x \mid c) = \dfrac{f_\theta (x, c)}{Z_\theta (c)} = \dfrac{f_\theta (x, c)}{\sum_{x'} f_\theta (x', c)}$$

其中 $f_\theta(x, c)$ 是模型对 $x$ 在上下文 $c$ 下的打分函数。问题在于，当 $x$ 的可能取值数量极大时（例如自然语言处理中的整个词汇表 $|V|$），对所有的 $x'$ 求和变得计算量巨大甚至不可行（Intractable）。

为了解决这个问题，研究人员提出了噪声对比估计（Noise Contrastive Estimation, NCE）。其核心思想是将“估计概率分布”的问题转化为“二分类”问题：区分“真实数据”和“噪声数据”。

本文主要讨论两种主要方法：

Local NCE（原文有时称为 Binary NCE）：用于估计条件概率 $p(x \mid c)$。
Global NCE / InfoNCE：用于最大化互信息，是 CLIP、SimCLR 等对比学习算法的基础。

核心内容

1. 变量定义与应用场景

在深入算法之前，明确 $x$（目标数据）和 $c$（上下文/条件）在不同领域的含义至关重要：

自然语言处理 (NLP)：
- Local/Global NCE：用于语言建模。$x$ 是单词，$c$ 是上下文单词窗口。目标是学习 $p(x \mid c)$，即给定上下文预测下一个词的概率。
语音识别：
- Local NCE：$x$ 是预测的单词，$c$ 是包含该单词的音频信号。
- InfoNCE：用于最大化同一单词在不同上下文中的表示之间的互信息。$x$ 是单词，$c$ 是音频上下文。
强化学习：
- InfoNCE：作为正则化项使用。$x$ 和 $c$ 是同一游戏状态在不同时间步的表示。目标是最大化 $x$ 和 $c$ 之间的互信息，这与最大化 $\frac{p(x \mid c)}{p(x)}$ 成正比。
计算机视觉：
- InfoNCE：用于对比学习。$x$ 和 $c$ 是同一张图像的不同视图（例如经过随机裁剪、颜色滤镜、拉伸等增强处理后的图像）。目标是最大化 $x$ 和 $c$ 之间的互信息（如 SimCLR）。
生成对抗网络 (GANs)：
- Local NCE：类似于 GAN 的判别器。区别在于，GAN 中的生成器 $q(x)$ 是学习出来的，而 Local NCE 中的噪声分布 $q(x)$ 在训练过程中是固定的。

2. Local NCE 的原理与推导

Local NCE 的核心是将学习 $p_\theta(x \mid c)$ 转化为学习一个二分类器 $p(d \mid x, c)$，其中 $d$ 指示数据点是“真实”还是“噪声”。

步骤如下：

采样：
- 从真实分布 $p(x \mid c)$ 中采样 1 个正样本（Positive Sample）。
- 从噪声分布 $q(x)$ 中采样 $k$ 个负样本（Negative Samples），并标记为 $D=0$。正样本标记为 $D=1$。
条件概率公式：观察到数据点 $x$ 和上下文 $c$ 时，其为真实数据或噪声数据的概率分别为： $$ \begin{align*} p(D = 0 \mid x, c) &= \dfrac{k \cdot q(x)}{p(x \mid c) + k \cdot q(x)} \ p(D = 1 \mid x, c) &= \dfrac{p(x \mid c)}{p(x \mid c) + k \cdot q(x)} \end{align*} $$
自归一化假设 (Self-Normalization)：直接计算 $p(x \mid c)$ 需要除以 $Z_\theta(c)$，这很困难。Local NCE 通常假设 $Z_\theta(c) \approx 1$。这意味着我们可以直接使用打分函数 $f_\theta(x, c)$ 来近似概率： $$p(x \mid c) \approx f_\theta (x, c)$$ 这一假设在实践中往往有效，因为神经网络具有足够的表达能力来学习自归一化的打分函数。
损失函数：基于上述假设，我们将条件概率重写为关于 $f_\theta$ 的形式，并构建二元分类损失： $$ \begin{align*} p(D = 0 \mid x, c) &= \dfrac{k \cdot q(x)}{f_\theta(x,c) + k \cdot q(x)} \ p(D = 1 \mid x, c) &= \dfrac{f_\theta(x,c)}{f_\theta(x,c) + k \cdot q(x)} \end{align*} $$ 初始的损失函数包含对 $q(x)$ 的期望： $$ \mathcal{L}{\text{LocalNCE}} = \sum{(x, c) \in D} \left[ \log p(D = 1 \mid x, c) + k \mathbb{E}{x' \sim q} \log p(D = 0 \mid x', c) \right] $$ 为了实际计算，我们使用蒙特卡洛采样（Monte-Carlo Sampling）近似该期望，使用 $k$ 个来自 $q(x)$ 的样本： $$ \mathcal{L}{\text{LocalNCE,MC}} = \sum_{(x, c) \in D} \left( \log p(D = 1 \mid x, c) + \sum_{i=1, x' \sim q}^{k} \log p(D = 0 \mid x', c) \right) $$ 原始论文证明，当 $k \rightarrow \infty$ 时，该损失的梯度仅在 $f_\theta(x, c) = p(x \mid c)$ 时为零。因此，优化这个二分类损失等价于学习真实的概率分布。

3. 应用：负采样 (Negative Sampling)

Local NCE 提供了一种在不计算配分函数的情况下学习 $f(x, c) \approx p(x \mid c)$ 的方法，但需要选择噪声样本数量 $k$ 和噪声分布 $q(x)$。

在语言建模中，通常采用以下默认设置：

噪声分布 $q(x)$：由于缺乏先验知识，通常假设词汇表上的均匀分布，即 $q(x) = \frac{1}{|V|}$。
噪声样本数 $k$：通常设为词汇表大小 $|V|$。这样，采样到真实点的概率约为 $\frac{1}{|V|}$，与采样到

查看原文 →jxmo.io