表征坍缩 (Representation Collapse)

自监督学习中最棘手的问题之一，也是 jepa 架构必须正面应对的核心挑战。

定义

神经网络训练中的一个"偷懒"现象：模型将所有输入映射为高度相似或相同的向量，使预测器始终"猜对"（损失下降），但实际上什么也没学到。

特征：

训练 JEPA 预测视频后续帧的表征 → 系统发现"把什么都映射成同一个向量"就是最优解：

思路：在表征空间制造"排斥力"——正样本对拉近，负样本对推开。

局限（LeCun的观点）：

思路：两个编码器配合——在线网络（学生）做反向传播，目标网络（老师）通过 EMA 缓慢跟随。

局限：

核心思路：不靠间接机制防坍塌，直接在数学上规定"表征必须携带信息量"。

表征坍缩暴露了自监督学习的元问题：当监督信号仅内生于数据本身，模型天然倾向最省力路径——将所有输入压缩为无信息的常量。三种路线殊途同归，都在强制表征空间保持丰富的几何结构。这一问题的回答质量，直接决定 JEPA 路线能否从视觉预训练稳定扩展到端到端世界模型。