Files
myWiki/concepts/representation-collapse.md

67 lines
2.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "表征坍缩 (Representation Collapse)"
created: 2026-06-08
updated: 2026-06-08
type: concept
tags: [self-supervised-learning, JEPA, representation-learning, LeCun]
sources: [raw/articles/lecun-llm-boundary-future-2026.md]
---
# 表征坍缩 (Representation Collapse)
自监督学习中最棘手的问题之一,也是 [[jepa|JEPA]] 架构必须正面应对的核心挑战。
## 定义
神经网络训练中的一个"偷懒"现象:**模型将所有输入映射为高度相似或相同的向量**,使预测器始终"猜对"(损失下降),但实际上什么也没学到。
**特征**
- 表征的有效维度PCA检验远低于名义维度
- 所有表征聚集在特征空间的狭窄低维区域
- 丧失了区分不同输入所需的信息量
## 经典案例
训练 JEPA 预测视频后续帧的表征 → 系统发现"把什么都映射成同一个向量"就是最优解:
- 预测器永远猜对 → 损失下降 ✓
- 但梯度包含了零信息 → 模型什么也没学到 ✗
## 三条解决路线
### 1. 对比学习 (Contrastive Learning)
**思路**:在表征空间制造"排斥力"——正样本对拉近,负样本对推开。
**局限LeCun的观点**
- 高维空间随机采样到的负样本大多已是"easy negative",对训练无效
- 困难负样本极度稀缺,随机采样几乎碰不到
- 欠采样仍崩塌,过度采样破坏语义结构
- **对比学习难以支撑大规模世界模型**
### 2. 蒸馏方法 (BYOL, DINO)
**思路**:两个编码器配合——在线网络(学生)做反向传播,目标网络(老师)通过 EMA 缓慢跟随。
**局限**
- 损失函数不等于真实优化目标("你以为在最小化的代价函数,实际上并不是"
- 损失曲线无法判断训练状态是否健康
- "We don't like this method, but it works." — LeCun
### 3. 显式正则化 ← LeCun 最看好
**核心思路**:不靠间接机制防坍塌,直接在数学上规定"表征必须携带信息量"。
- [[vicreg|VICReg]]:方差+不变性+协方差三项约束
- [[sigreg|SIGReg]]:强制嵌入分布匹配各向同性高斯分布 $N(0,I)$
## 深层意义
表征坍缩暴露了自监督学习的**元问题**:当监督信号仅内生于数据本身,模型天然倾向最省力路径——将所有输入压缩为无信息的常量。三种路线殊途同归,都在强制表征空间保持丰富的几何结构。**这一问题的回答质量,直接决定 JEPA 路线能否从视觉预训练稳定扩展到端到端世界模型。**
## 来源
- [[lecun-llm-boundary-future|原始文章]]
- [[sigreg|SIGReg]]
- [[vicreg|VICReg]]
- [[jepa|JEPA]]