20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/sigreg.md
+++ b/concepts/sigreg.md
@@ -0,0 +1,62 @@
+---
+title: "SIGReg (Sketch Isotropic Gaussian Regularization)"
+created: 2026-06-08
+updated: 2026-06-08
+type: concept
+tags: [regularization, JEPA, representation-learning, LeCun, world-model]
+sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://arxiv.org/pdf/2511.08544.pdf]
+---
+
+# SIGReg (Sketch Isotropic Gaussian Regularization)
+
+**草图各向同性高斯正则化**，LeCun 团队提出的防[[representation-collapse|表征坍缩]]方案。首次发表于 *LeJEPA* (2025.11)，成功应用于 [[leworldmodel|LeWorldModel]] (2026.03)。
+
+## 核心思想
+
+**强迫潜在嵌入的分布匹配一个各向同性高斯分布 $N(0,I)$。** 这是当前最简洁有效的防坍塌方法。
+
+## 为什么选择高斯分布？
+
+2026年5月 LeCun 团队的理论工作 *When Does LeJEPA Learn a World Model?* 证明：
+- LeJEPA（对齐 + 各向同性高斯正则化）**当且仅当**潜在分布为高斯时，能从非线性观测中线性恢复世界的真实潜在变量
+- 这一性质称为**线性可识别性**（linear identifiability）：隐空间规划与真实空间规划的最优等价性
+
+## 实现原理
+
+利用 **Cramér-Wold 定理**：一个多元分布是高斯分布，当且仅当它在**所有一维随机投影下**都是高斯分布。
+
+### 三步实现
+
+1. **随机投影**：将批次表征 $Z \in \mathbb{R}^{N \times B \times d}$ 往随机方向 $u^m$ 投影，得到一维序列 $h^m = Z \cdot u^m$
+2. **正态性检验**：对每个投影计算 **Epps-Pulley 统计量**（基于特征函数的正态性检验，对厚尾、多峰敏感），衡量偏离高斯分布的程度
+3. **聚合惩罚**：对所有投影的检验统计量取平均，作为正则化损失
+
+### 完整训练目标
+
+$$\mathcal{L}_{total} = \underbrace{\|\hat{Z}_{t+1} - Z_{t+1}\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}$$
+
+## 相比 VICReg 的改进
+
+| 维度 | VICReg | SIGReg |
+|------|--------|--------|
+| 损失项 | 方差 + 协方差 + 不变性（3项） | 预测 + 高斯匹配（2项） |
+| 超参数 | PLDM 中 6 个可调超参 | 1 个有效超参 $\lambda$ |
+| 训练稳定性 | 各项拉扯 | 单调收敛 |
+| 理论依据 | 启发式约束 | 线性可识别性理论 |
+
+## 工程意义
+
+LeWorldModel 之前，端到端 JEPA 世界模型（PLDM）需 6 个可调超参数的组合。LeWorldModel 用 SIGReg 将其压缩为 **2 个损失项 + 1 个超参数 $\lambda$**，能在单张 GPU 上几小时内从原始像素稳定训练。
+
+**一句话：SIGReg 把"防坍塌"从工程启发式转化为数学上更干净的分布匹配问题。**
+
+## 局限性
+
+在数据多样性有限、环境内在维度很低的简单场景中，SIGReg 强制匹配高维各向同性高斯先验会导致表征学习困难。
+
+## 来源
+
+- [[lecun-llm-boundary-future|原始文章]]
+- [[leworldmodel|LeWorldModel]]
+- [[jepa|JEPA]]
+- [[representation-collapse|表征坍缩]]