JEPA模型背后的90年历史:典型相关分析
速览
JEPA模型的核心机制植根于90年前的典型相关分析理论。这一历史渊源揭示了该架构在特征学习方面的深层数学基础。理解这一联系有助于把握JEPA在自监督学习中的独特优势。
AI 深度解读
JEPA 模型背后的 90 年思想渊源:典型相关分析 (CCA)
背景
在人工智能与机器学习的最新进展中,Yann LeCun 提出的联合嵌入预测架构(Joint Embedding Predictive Architecture, JEPA)引发了广泛关注,同时也伴随了一些关于“原创性”的学术争论。Jürgen Schmidhuber 曾公开质疑 LeCun 对 JEPA 的发明权,指出其核心思想与 Schmidhuber 团队在 1992 年提出的“可预测性最大化系统”(Predictability Maximization system)并无二致。
然而,JEPA 的思想根源实际上可以追溯到更久远的统计学领域。这篇文章深入探讨了 JEPA 与一种拥有 90 年历史的统计方法——典型相关分析(Canonical Correlation Analysis, CCA)之间的深刻联系。CCA 由统计学家和经济学家 Harold Hotelling 于 1936 年在其论文《两组变量之间的关系》(Relations Between Two Sets of Variates)中首次提出。
现代术语中,CCA 被定义为“在两个大型矩阵中寻找共同信号”的方法。理解这一历史脉络,不仅有助于厘清 JEPA 的技术本质,也为解决当前大模型架构中的关键问题提供了理论视角。
核心内容
从 CCA 到 JEPA 的逻辑演进
CCA 的基本概念不仅适用于一维变量,也适用于多维变量。在 JEPA 的语境下,其目标与 CCA 惊人地相似:寻找两个数据矩阵之间的共同信号。不同之处在于,JEPA 中的第二个数据矩阵通常是第一个数据集中数据的另一种视图(例如通过数据增强、空间或时间邻近性获得)。
正如 Huang (2026) 在一篇近期论文中指出的:“基于 JEPA 的模型隐式地执行了典型相关分析的非线性泛化。”
虽然 Schmidhuber 与 LeCun 的争论焦点在于谁发明了 JEPA,但从思想贡献的角度来看,Hotelling 因提出在嵌入空间中最大化相关性而应获得认可。当然,传统的 CCA 模型与 JEPA 存在显著差异:
- 编码器共享:CCA 不强制使用共享编码器。
- 线性与非线性:最大的区别在于 CCA 是线性的。尽管早在 2013 年 Andrew 等人就提出了“深度 CCA”(Deep CCA)这一术语,探索了 CCA 的非线性神经网络变体,但 JEPA 本质上是一种非线性的架构增强。
数学原理:CCA 与 JEPA 的目标函数对比
为了更清晰地理解两者的联系,我们可以从数学公式层面进行对比。
1. CCA 的数学表述
假设我们有两个零均值矩阵 $X=(x_1,...,x_n)^T\in \mathbb R^{n\times d_x}$ 和 $Y=(y_1,...,y_n)^T\in\mathbb R^{n\times d_y}$。 令 $k\leq \min(d_x,d_y, n)$,并定义变换矩阵 $A\in \mathbb R^{d_x\times k}$ 和 $B\in \mathbb R^{d_y\times k}$,使得 $XA=z_x\in \mathbb R^{n \times k}$ 且 $YB=z_y\in \mathbb R^{n \times k}$。
CCA 旨在解决以下最大化问题: $$ \max_{A,B} \text{tr}\left(\frac{1}{n}z_x^Tz_y\right) $$ 约束条件为: $$ \frac{1}{n}z_x^Tz_x=\frac{1}{n}z_y^Tz_y=I $$
这意味着在最大化交叉相关矩阵的迹的同时,将嵌入向量的方差约束为单位方差,协方差为零(即白化约束)。
类似于主成分分析(PCA)中最大化方差等价于最小化预测误差,交叉相关矩阵的迹与嵌入预测误差之间存在如下关系: $$ \frac{1}{n}\sum_{i=1}^n ||z_x^{(i)}-z_y^{(i)}||^2=\frac{1}{n}||z_x-z_y||_F^2= \frac{1}{n}\text{tr}(z_x^Tz_x) + \frac{1}{n}\text{tr}(z_y^Tz_y) - \frac{2}{n}\text{tr}(z_x^Tz_y) $$
由于白化约束的存在,上式简化为: $$ =2k- \frac{2}{n}\text{tr}(z_x^Tz_y) $$
因此,在白化约束下最大化交叉相关矩阵的迹,等价于最小化嵌入表示的均方误差(MSE)。我们可以将 CCA 重写为最小化问题: $$ \min_{A,B} \frac{1}{n}\sum_{i=1}^n ||z_x^{(i)}-z_y^{(i)}||^2 $$ 约束条件同上。
2. JEPA 的数学表述
在 JEPA 中,由于联合嵌入的性质,约束条件变为 $d_x=d_y=d$。JEPA 包含一个编码器 $f_\theta:\mathbb R^{d}\rightarrow \mathbb R^k$ 和一个预测器 $g_\varphi:\mathbb R^{k}\rightarrow \mathbb R^k$。 令 $z_x^{(i)}=g_\varphi(f_\theta(x_i))$,$z_y^{(i)}=f_\theta(y_i)$。
JEPA 求解的目标函数为: $$ \min_{\theta,\varphi}\frac{1}{n} \sum_{i=1}^n ||z_x^{(i)}-z_y^{(i)}||^2 $$
3. 关键差异:白化约束与表示崩溃
对比两者,目标函数形式相似,但 JEPA 缺乏白化约束。 缺乏这一约束会导致“表示崩溃”(representational collapse)和“维度崩溃”(dimensional collapse)。例如,上述问题的一个平凡解是 $z_x^{(i)}=z_y^{(i)}=c$(即所有嵌入都坍缩为一个常数)。
为了解决这个问题,Balestriero 和 LeCun (2025) 在 SIGReg 中提出了一种方法,它鼓励嵌入 $z_x$ 和 $z_y$ 具有各向同性(即单位方差、不相关)的高斯分布。这在效果上重新引入了类似 CCA 的约束: $$ \frac{1}{n}z_x^Tz_x=\frac{1}{n}z_y^Tz_y=I $$
扩展性与未来展望
将 JEPA 模型与其 CCA 根源联系起来具有真正的实用价值。Benton 等人 (2017) 的另一篇深度 CCA 论文将两个变量集的假设放宽为任意数量,基于 Horst (1961) 提出的 CCA 泛化。理论上,JEPA 也可以扩展为处理两个以上的视图。
关键要点
- 历史渊源:JEPA 的核心思想——在嵌入空间中最大化相关性——最早由 Harold Hotelling 在 1936 年提出的典型相关分析(CCA)中确立,而非 LeCun 或 Schmidhuber 的独创。
- 本质联系:JEPA 可以被视为 CCA 的非线性泛化。两者在数学目标上高度一致,即最小化不同视图间嵌入表示的均方误差(MSE)。
- 技术差异:
- 线性 vs 非线性:传统 CCA 是线性的,而 JEPA 利用神经网络实现了非线性映射。
- 约束条件:传统 CCA 强制要求嵌入向量白化(单位方差、零协方差),而 JEPA 原始形式缺乏此约束,容易导致模型坍缩。
- 解决方案:JEPA 通过引入如 SIGReg 等机制,鼓励嵌入分布呈各向同性高斯分布,从而在效果上恢复了类似 CCA 的白化约束,防止了表示崩溃。
- 关于原创性的争议:Schmidhuber 认为 JE
