2.9 KiB
2.9 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SIGReg (Sketch Isotropic Gaussian Regularization) | 2026-06-08 | 2026-06-08 | concept |
|
|
SIGReg (Sketch Isotropic Gaussian Regularization)
草图各向同性高斯正则化,LeCun 团队提出的防representation-collapse方案。首次发表于 LeJEPA (2025.11),成功应用于 leworldmodel (2026.03)。
核心思想
强迫潜在嵌入的分布匹配一个各向同性高斯分布 $N(0,I)$。 这是当前最简洁有效的防坍塌方法。
为什么选择高斯分布?
2026年5月 LeCun 团队的理论工作 When Does LeJEPA Learn a World Model? 证明:
- LeJEPA(对齐 + 各向同性高斯正则化)当且仅当潜在分布为高斯时,能从非线性观测中线性恢复世界的真实潜在变量
- 这一性质称为线性可识别性(linear identifiability):隐空间规划与真实空间规划的最优等价性
实现原理
利用 Cramér-Wold 定理:一个多元分布是高斯分布,当且仅当它在所有一维随机投影下都是高斯分布。
三步实现
- 随机投影:将批次表征
Z \in \mathbb{R}^{N \times B \times d}往随机方向u^m投影,得到一维序列h^m = Z \cdot u^m - 正态性检验:对每个投影计算 Epps-Pulley 统计量(基于特征函数的正态性检验,对厚尾、多峰敏感),衡量偏离高斯分布的程度
- 聚合惩罚:对所有投影的检验统计量取平均,作为正则化损失
完整训练目标
\mathcal{L}_{total} = \underbrace{\|\hat{Z}_{t+1} - Z_{t+1}\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}
相比 VICReg 的改进
| 维度 | VICReg | SIGReg |
|---|---|---|
| 损失项 | 方差 + 协方差 + 不变性(3项) | 预测 + 高斯匹配(2项) |
| 超参数 | PLDM 中 6 个可调超参 | 1 个有效超参 \lambda |
| 训练稳定性 | 各项拉扯 | 单调收敛 |
| 理论依据 | 启发式约束 | 线性可识别性理论 |
工程意义
LeWorldModel 之前,端到端 JEPA 世界模型(PLDM)需 6 个可调超参数的组合。LeWorldModel 用 SIGReg 将其压缩为 2 个损失项 + 1 个超参数 $\lambda$,能在单张 GPU 上几小时内从原始像素稳定训练。
一句话:SIGReg 把"防坍塌"从工程启发式转化为数学上更干净的分布匹配问题。
局限性
在数据多样性有限、环境内在维度很低的简单场景中,SIGReg 强制匹配高维各向同性高斯先验会导致表征学习困难。