20260617:目前有914 页
This commit is contained in:
62
concepts/sigreg.md
Normal file
62
concepts/sigreg.md
Normal file
@@ -0,0 +1,62 @@
|
||||
---
|
||||
title: "SIGReg (Sketch Isotropic Gaussian Regularization)"
|
||||
created: 2026-06-08
|
||||
updated: 2026-06-08
|
||||
type: concept
|
||||
tags: [regularization, JEPA, representation-learning, LeCun, world-model]
|
||||
sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://arxiv.org/pdf/2511.08544.pdf]
|
||||
---
|
||||
|
||||
# SIGReg (Sketch Isotropic Gaussian Regularization)
|
||||
|
||||
**草图各向同性高斯正则化**,LeCun 团队提出的防[[representation-collapse|表征坍缩]]方案。首次发表于 *LeJEPA* (2025.11),成功应用于 [[leworldmodel|LeWorldModel]] (2026.03)。
|
||||
|
||||
## 核心思想
|
||||
|
||||
**强迫潜在嵌入的分布匹配一个各向同性高斯分布 $N(0,I)$。** 这是当前最简洁有效的防坍塌方法。
|
||||
|
||||
## 为什么选择高斯分布?
|
||||
|
||||
2026年5月 LeCun 团队的理论工作 *When Does LeJEPA Learn a World Model?* 证明:
|
||||
- LeJEPA(对齐 + 各向同性高斯正则化)**当且仅当**潜在分布为高斯时,能从非线性观测中线性恢复世界的真实潜在变量
|
||||
- 这一性质称为**线性可识别性**(linear identifiability):隐空间规划与真实空间规划的最优等价性
|
||||
|
||||
## 实现原理
|
||||
|
||||
利用 **Cramér-Wold 定理**:一个多元分布是高斯分布,当且仅当它在**所有一维随机投影下**都是高斯分布。
|
||||
|
||||
### 三步实现
|
||||
|
||||
1. **随机投影**:将批次表征 $Z \in \mathbb{R}^{N \times B \times d}$ 往随机方向 $u^m$ 投影,得到一维序列 $h^m = Z \cdot u^m$
|
||||
2. **正态性检验**:对每个投影计算 **Epps-Pulley 统计量**(基于特征函数的正态性检验,对厚尾、多峰敏感),衡量偏离高斯分布的程度
|
||||
3. **聚合惩罚**:对所有投影的检验统计量取平均,作为正则化损失
|
||||
|
||||
### 完整训练目标
|
||||
|
||||
$$\mathcal{L}_{total} = \underbrace{\|\hat{Z}_{t+1} - Z_{t+1}\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}$$
|
||||
|
||||
## 相比 VICReg 的改进
|
||||
|
||||
| 维度 | VICReg | SIGReg |
|
||||
|------|--------|--------|
|
||||
| 损失项 | 方差 + 协方差 + 不变性(3项) | 预测 + 高斯匹配(2项) |
|
||||
| 超参数 | PLDM 中 6 个可调超参 | 1 个有效超参 $\lambda$ |
|
||||
| 训练稳定性 | 各项拉扯 | 单调收敛 |
|
||||
| 理论依据 | 启发式约束 | 线性可识别性理论 |
|
||||
|
||||
## 工程意义
|
||||
|
||||
LeWorldModel 之前,端到端 JEPA 世界模型(PLDM)需 6 个可调超参数的组合。LeWorldModel 用 SIGReg 将其压缩为 **2 个损失项 + 1 个超参数 $\lambda$**,能在单张 GPU 上几小时内从原始像素稳定训练。
|
||||
|
||||
**一句话:SIGReg 把"防坍塌"从工程启发式转化为数学上更干净的分布匹配问题。**
|
||||
|
||||
## 局限性
|
||||
|
||||
在数据多样性有限、环境内在维度很低的简单场景中,SIGReg 强制匹配高维各向同性高斯先验会导致表征学习困难。
|
||||
|
||||
## 来源
|
||||
|
||||
- [[lecun-llm-boundary-future|原始文章]]
|
||||
- [[leworldmodel|LeWorldModel]]
|
||||
- [[jepa|JEPA]]
|
||||
- [[representation-collapse|表征坍缩]]
|
||||
Reference in New Issue
Block a user