AI 资讯Hacker News·4 天前

JEPA模型背后的90年历史：典型相关分析

原标题：The 90-year-old idea behind JEPA models: Canonical Correlation Analysis

速览

JEPA模型的核心机制植根于90年前的典型相关分析理论。这一历史渊源揭示了该架构在特征学习方面的深层数学基础。理解这一联系有助于把握JEPA在自监督学习中的独特优势。

AI 深度解读

JEPA 模型背后的 90 年思想渊源：典型相关分析 (CCA)

背景

在人工智能与机器学习的最新进展中，Yann LeCun 提出的联合嵌入预测架构（Joint Embedding Predictive Architecture, JEPA）引发了广泛关注，同时也伴随了一些关于“原创性”的学术争论。Jürgen Schmidhuber 曾公开质疑 LeCun 对 JEPA 的发明权，指出其核心思想与 Schmidhuber 团队在 1992 年提出的“可预测性最大化系统”（Predictability Maximization system）并无二致。

然而，JEPA 的思想根源实际上可以追溯到更久远的统计学领域。这篇文章深入探讨了 JEPA 与一种拥有 90 年历史的统计方法——典型相关分析（Canonical Correlation Analysis, CCA）之间的深刻联系。CCA 由统计学家和经济学家 Harold Hotelling 于 1936 年在其论文《两组变量之间的关系》（Relations Between Two Sets of Variates）中首次提出。

现代术语中，CCA 被定义为“在两个大型矩阵中寻找共同信号”的方法。理解这一历史脉络，不仅有助于厘清 JEPA 的技术本质，也为解决当前大模型架构中的关键问题提供了理论视角。

核心内容

从 CCA 到 JEPA 的逻辑演进

CCA 的基本概念不仅适用于一维变量，也适用于多维变量。在 JEPA 的语境下，其目标与 CCA 惊人地相似：寻找两个数据矩阵之间的共同信号。不同之处在于，JEPA 中的第二个数据矩阵通常是第一个数据集中数据的另一种视图（例如通过数据增强、空间或时间邻近性获得）。

正如 Huang (2026) 在一篇近期论文中指出的：“基于 JEPA 的模型隐式地执行了典型相关分析的非线性泛化。”

虽然 Schmidhuber 与 LeCun 的争论焦点在于谁发明了 JEPA，但从思想贡献的角度来看，Hotelling 因提出在嵌入空间中最大化相关性而应获得认可。当然，传统的 CCA 模型与 JEPA 存在显著差异：

编码器共享：CCA 不强制使用共享编码器。
线性与非线性：最大的区别在于 CCA 是线性的。尽管早在 2013 年 Andrew 等人就提出了“深度 CCA”（Deep CCA）这一术语，探索了 CCA 的非线性神经网络变体，但 JEPA 本质上是一种非线性的架构增强。

数学原理：CCA 与 JEPA 的目标函数对比

为了更清晰地理解两者的联系，我们可以从数学公式层面进行对比。

1. CCA 的数学表述

假设我们有两个零均值矩阵 $X=(x_1,...,x_n)^T\in \mathbb R^{n\times d_x}$ 和 $Y=(y_1,...,y_n)^T\in\mathbb R^{n\times d_y}$。令 $k\leq \min(d_x,d_y, n)$，并定义变换矩阵 $A\in \mathbb R^{d_x\times k}$ 和 $B\in \mathbb R^{d_y\times k}$，使得 $XA=z_x\in \mathbb R^{n \times k}$ 且 $YB=z_y\in \mathbb R^{n \times k}$。

CCA 旨在解决以下最大化问题： $$ \max_{A,B} \text{tr}\left(\frac{1}{n}z_x^Tz_y\right) $$ 约束条件为： $$ \frac{1}{n}z_x^Tz_x=\frac{1}{n}z_y^Tz_y=I $$

这意味着在最大化交叉相关矩阵的迹的同时，将嵌入向量的方差约束为单位方差，协方差为零（即白化约束）。

类似于主成分分析（PCA）中最大化方差等价于最小化预测误差，交叉相关矩阵的迹与嵌入预测误差之间存在如下关系： $$ \frac{1}{n}\sum_{i=1}^n ||z_x^{(i)}-z_y^{(i)}||^2=\frac{1}{n}||z_x-z_y||_F^2= \frac{1}{n}\text{tr}(z_x^Tz_x) + \frac{1}{n}\text{tr}(z_y^Tz_y) - \frac{2}{n}\text{tr}(z_x^Tz_y) $$

由于白化约束的存在，上式简化为： $$ =2k- \frac{2}{n}\text{tr}(z_x^Tz_y) $$

因此，在白化约束下最大化交叉相关矩阵的迹，等价于最小化嵌入表示的均方误差（MSE）。我们可以将 CCA 重写为最小化问题： $$ \min_{A,B} \frac{1}{n}\sum_{i=1}^n ||z_x^{(i)}-z_y^{(i)}||^2 $$ 约束条件同上。

2. JEPA 的数学表述

在 JEPA 中，由于联合嵌入的性质，约束条件变为 $d_x=d_y=d$。JEPA 包含一个编码器 $f_\theta:\mathbb R^{d}\rightarrow \mathbb R^k$ 和一个预测器 $g_\varphi:\mathbb R^{k}\rightarrow \mathbb R^k$。令 $z_x^{(i)}=g_\varphi(f_\theta(x_i))$，$z_y^{(i)}=f_\theta(y_i)$。

JEPA 求解的目标函数为： $$ \min_{\theta,\varphi}\frac{1}{n} \sum_{i=1}^n ||z_x^{(i)}-z_y^{(i)}||^2 $$

3. 关键差异：白化约束与表示崩溃

对比两者，目标函数形式相似，但 JEPA 缺乏白化约束。缺乏这一约束会导致“表示崩溃”（representational collapse）和“维度崩溃”（dimensional collapse）。例如，上述问题的一个平凡解是 $z_x^{(i)}=z_y^{(i)}=c$（即所有嵌入都坍缩为一个常数）。

为了解决这个问题，Balestriero 和 LeCun (2025) 在 SIGReg 中提出了一种方法，它鼓励嵌入 $z_x$ 和 $z_y$ 具有各向同性（即单位方差、不相关）的高斯分布。这在效果上重新引入了类似 CCA 的约束： $$ \frac{1}{n}z_x^Tz_x=\frac{1}{n}z_y^Tz_y=I $$

扩展性与未来展望

将 JEPA 模型与其 CCA 根源联系起来具有真正的实用价值。Benton 等人 (2017) 的另一篇深度 CCA 论文将两个变量集的假设放宽为任意数量，基于 Horst (1961) 提出的 CCA 泛化。理论上，JEPA 也可以扩展为处理两个以上的视图。

关键要点

历史渊源：JEPA 的核心思想——在嵌入空间中最大化相关性——最早由 Harold Hotelling 在 1936 年提出的典型相关分析（CCA）中确立，而非 LeCun 或 Schmidhuber 的独创。
本质联系：JEPA 可以被视为 CCA 的非线性泛化。两者在数学目标上高度一致，即最小化不同视图间嵌入表示的均方误差（MSE）。
技术差异：
- 线性 vs 非线性：传统 CCA 是线性的，而 JEPA 利用神经网络实现了非线性映射。
- 约束条件：传统 CCA 强制要求嵌入向量白化（单位方差、零协方差），而 JEPA 原始形式缺乏此约束，容易导致模型坍缩。
解决方案：JEPA 通过引入如 SIGReg 等机制，鼓励嵌入分布呈各向同性高斯分布，从而在效果上恢复了类似 CCA 的白化约束，防止了表示崩溃。
关于原创性的争议：Schmidhuber 认为 JE

查看原文 →shonczinner.github.io