67 lines
2.6 KiB
Markdown
67 lines
2.6 KiB
Markdown
---
|
||
title: "表征坍缩 (Representation Collapse)"
|
||
created: 2026-06-08
|
||
updated: 2026-06-08
|
||
type: concept
|
||
tags: [self-supervised-learning, JEPA, representation-learning, LeCun]
|
||
sources: [raw/articles/lecun-llm-boundary-future-2026.md]
|
||
---
|
||
|
||
# 表征坍缩 (Representation Collapse)
|
||
|
||
自监督学习中最棘手的问题之一,也是 [[jepa|JEPA]] 架构必须正面应对的核心挑战。
|
||
|
||
## 定义
|
||
|
||
神经网络训练中的一个"偷懒"现象:**模型将所有输入映射为高度相似或相同的向量**,使预测器始终"猜对"(损失下降),但实际上什么也没学到。
|
||
|
||
**特征**:
|
||
- 表征的有效维度(PCA检验)远低于名义维度
|
||
- 所有表征聚集在特征空间的狭窄低维区域
|
||
- 丧失了区分不同输入所需的信息量
|
||
|
||
## 经典案例
|
||
|
||
训练 JEPA 预测视频后续帧的表征 → 系统发现"把什么都映射成同一个向量"就是最优解:
|
||
- 预测器永远猜对 → 损失下降 ✓
|
||
- 但梯度包含了零信息 → 模型什么也没学到 ✗
|
||
|
||
## 三条解决路线
|
||
|
||
### 1. 对比学习 (Contrastive Learning)
|
||
|
||
**思路**:在表征空间制造"排斥力"——正样本对拉近,负样本对推开。
|
||
|
||
**局限(LeCun的观点)**:
|
||
- 高维空间随机采样到的负样本大多已是"easy negative",对训练无效
|
||
- 困难负样本极度稀缺,随机采样几乎碰不到
|
||
- 欠采样仍崩塌,过度采样破坏语义结构
|
||
- **对比学习难以支撑大规模世界模型**
|
||
|
||
### 2. 蒸馏方法 (BYOL, DINO)
|
||
|
||
**思路**:两个编码器配合——在线网络(学生)做反向传播,目标网络(老师)通过 EMA 缓慢跟随。
|
||
|
||
**局限**:
|
||
- 损失函数不等于真实优化目标("你以为在最小化的代价函数,实际上并不是")
|
||
- 损失曲线无法判断训练状态是否健康
|
||
- "We don't like this method, but it works." — LeCun
|
||
|
||
### 3. 显式正则化 ← LeCun 最看好
|
||
|
||
**核心思路**:不靠间接机制防坍塌,直接在数学上规定"表征必须携带信息量"。
|
||
|
||
- [[vicreg|VICReg]]:方差+不变性+协方差三项约束
|
||
- [[sigreg|SIGReg]]:强制嵌入分布匹配各向同性高斯分布 $N(0,I)$
|
||
|
||
## 深层意义
|
||
|
||
表征坍缩暴露了自监督学习的**元问题**:当监督信号仅内生于数据本身,模型天然倾向最省力路径——将所有输入压缩为无信息的常量。三种路线殊途同归,都在强制表征空间保持丰富的几何结构。**这一问题的回答质量,直接决定 JEPA 路线能否从视觉预训练稳定扩展到端到端世界模型。**
|
||
|
||
## 来源
|
||
|
||
- [[lecun-llm-boundary-future|原始文章]]
|
||
- [[sigreg|SIGReg]]
|
||
- [[vicreg|VICReg]]
|
||
- [[jepa|JEPA]]
|