20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

62
concepts/sigreg.md Normal file
View File

@@ -0,0 +1,62 @@
---
title: "SIGReg (Sketch Isotropic Gaussian Regularization)"
created: 2026-06-08
updated: 2026-06-08
type: concept
tags: [regularization, JEPA, representation-learning, LeCun, world-model]
sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://arxiv.org/pdf/2511.08544.pdf]
---
# SIGReg (Sketch Isotropic Gaussian Regularization)
**草图各向同性高斯正则化**LeCun 团队提出的防[[representation-collapse|表征坍缩]]方案。首次发表于 *LeJEPA* (2025.11),成功应用于 [[leworldmodel|LeWorldModel]] (2026.03)。
## 核心思想
**强迫潜在嵌入的分布匹配一个各向同性高斯分布 $N(0,I)$。** 这是当前最简洁有效的防坍塌方法。
## 为什么选择高斯分布?
2026年5月 LeCun 团队的理论工作 *When Does LeJEPA Learn a World Model?* 证明:
- LeJEPA对齐 + 各向同性高斯正则化)**当且仅当**潜在分布为高斯时,能从非线性观测中线性恢复世界的真实潜在变量
- 这一性质称为**线性可识别性**linear identifiability隐空间规划与真实空间规划的最优等价性
## 实现原理
利用 **Cramér-Wold 定理**:一个多元分布是高斯分布,当且仅当它在**所有一维随机投影下**都是高斯分布。
### 三步实现
1. **随机投影**:将批次表征 $Z \in \mathbb{R}^{N \times B \times d}$ 往随机方向 $u^m$ 投影,得到一维序列 $h^m = Z \cdot u^m$
2. **正态性检验**:对每个投影计算 **Epps-Pulley 统计量**(基于特征函数的正态性检验,对厚尾、多峰敏感),衡量偏离高斯分布的程度
3. **聚合惩罚**:对所有投影的检验统计量取平均,作为正则化损失
### 完整训练目标
$$\mathcal{L}_{total} = \underbrace{\|\hat{Z}_{t+1} - Z_{t+1}\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}$$
## 相比 VICReg 的改进
| 维度 | VICReg | SIGReg |
|------|--------|--------|
| 损失项 | 方差 + 协方差 + 不变性3项 | 预测 + 高斯匹配2项 |
| 超参数 | PLDM 中 6 个可调超参 | 1 个有效超参 $\lambda$ |
| 训练稳定性 | 各项拉扯 | 单调收敛 |
| 理论依据 | 启发式约束 | 线性可识别性理论 |
## 工程意义
LeWorldModel 之前,端到端 JEPA 世界模型PLDM需 6 个可调超参数的组合。LeWorldModel 用 SIGReg 将其压缩为 **2 个损失项 + 1 个超参数 $\lambda$**,能在单张 GPU 上几小时内从原始像素稳定训练。
**一句话SIGReg 把"防坍塌"从工程启发式转化为数学上更干净的分布匹配问题。**
## 局限性
在数据多样性有限、环境内在维度很低的简单场景中SIGReg 强制匹配高维各向同性高斯先验会导致表征学习困难。
## 来源
- [[lecun-llm-boundary-future|原始文章]]
- [[leworldmodel|LeWorldModel]]
- [[jepa|JEPA]]
- [[representation-collapse|表征坍缩]]