20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/representation-collapse.md
+++ b/concepts/representation-collapse.md
@@ -0,0 +1,66 @@
+---
+title: "表征坍缩 (Representation Collapse)"
+created: 2026-06-08
+updated: 2026-06-08
+type: concept
+tags: [self-supervised-learning, JEPA, representation-learning, LeCun]
+sources: [raw/articles/lecun-llm-boundary-future-2026.md]
+---
+
+# 表征坍缩 (Representation Collapse)
+
+自监督学习中最棘手的问题之一，也是 [[jepa|JEPA]] 架构必须正面应对的核心挑战。
+
+## 定义
+
+神经网络训练中的一个"偷懒"现象：**模型将所有输入映射为高度相似或相同的向量**，使预测器始终"猜对"（损失下降），但实际上什么也没学到。
+
+**特征**：
+- 表征的有效维度（PCA检验）远低于名义维度
+- 所有表征聚集在特征空间的狭窄低维区域
+- 丧失了区分不同输入所需的信息量
+
+## 经典案例
+
+训练 JEPA 预测视频后续帧的表征 → 系统发现"把什么都映射成同一个向量"就是最优解：
+- 预测器永远猜对 → 损失下降 ✓
+- 但梯度包含了零信息 → 模型什么也没学到 ✗
+
+## 三条解决路线
+
+### 1. 对比学习 (Contrastive Learning)
+
+**思路**：在表征空间制造"排斥力"——正样本对拉近，负样本对推开。
+
+**局限（LeCun的观点）**：
+- 高维空间随机采样到的负样本大多已是"easy negative"，对训练无效
+- 困难负样本极度稀缺，随机采样几乎碰不到
+- 欠采样仍崩塌，过度采样破坏语义结构
+- **对比学习难以支撑大规模世界模型**
+
+### 2. 蒸馏方法 (BYOL, DINO)
+
+**思路**：两个编码器配合——在线网络（学生）做反向传播，目标网络（老师）通过 EMA 缓慢跟随。
+
+**局限**：
+- 损失函数不等于真实优化目标（"你以为在最小化的代价函数，实际上并不是"）
+- 损失曲线无法判断训练状态是否健康
+- "We don't like this method, but it works." — LeCun
+
+### 3. 显式正则化 ← LeCun 最看好
+
+**核心思路**：不靠间接机制防坍塌，直接在数学上规定"表征必须携带信息量"。
+
+- [[vicreg|VICReg]]：方差+不变性+协方差三项约束
+- [[sigreg|SIGReg]]：强制嵌入分布匹配各向同性高斯分布 $N(0,I)$
+
+## 深层意义
+
+表征坍缩暴露了自监督学习的**元问题**：当监督信号仅内生于数据本身，模型天然倾向最省力路径——将所有输入压缩为无信息的常量。三种路线殊途同归，都在强制表征空间保持丰富的几何结构。**这一问题的回答质量，直接决定 JEPA 路线能否从视觉预训练稳定扩展到端到端世界模型。**
+
+## 来源
+
+- [[lecun-llm-boundary-future|原始文章]]
+- [[sigreg|SIGReg]]
+- [[vicreg|VICReg]]
+- [[jepa|JEPA]]