--- title: "SIGReg (Sketch Isotropic Gaussian Regularization)" created: 2026-06-08 updated: 2026-06-08 type: concept tags: [regularization, JEPA, representation-learning, LeCun, world-model] sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://arxiv.org/pdf/2511.08544.pdf] --- # SIGReg (Sketch Isotropic Gaussian Regularization) **草图各向同性高斯正则化**,LeCun 团队提出的防[[representation-collapse|表征坍缩]]方案。首次发表于 *LeJEPA* (2025.11),成功应用于 [[leworldmodel|LeWorldModel]] (2026.03)。 ## 核心思想 **强迫潜在嵌入的分布匹配一个各向同性高斯分布 $N(0,I)$。** 这是当前最简洁有效的防坍塌方法。 ## 为什么选择高斯分布? 2026年5月 LeCun 团队的理论工作 *When Does LeJEPA Learn a World Model?* 证明: - LeJEPA(对齐 + 各向同性高斯正则化)**当且仅当**潜在分布为高斯时,能从非线性观测中线性恢复世界的真实潜在变量 - 这一性质称为**线性可识别性**(linear identifiability):隐空间规划与真实空间规划的最优等价性 ## 实现原理 利用 **Cramér-Wold 定理**:一个多元分布是高斯分布,当且仅当它在**所有一维随机投影下**都是高斯分布。 ### 三步实现 1. **随机投影**:将批次表征 $Z \in \mathbb{R}^{N \times B \times d}$ 往随机方向 $u^m$ 投影,得到一维序列 $h^m = Z \cdot u^m$ 2. **正态性检验**:对每个投影计算 **Epps-Pulley 统计量**(基于特征函数的正态性检验,对厚尾、多峰敏感),衡量偏离高斯分布的程度 3. **聚合惩罚**:对所有投影的检验统计量取平均,作为正则化损失 ### 完整训练目标 $$\mathcal{L}_{total} = \underbrace{\|\hat{Z}_{t+1} - Z_{t+1}\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}$$ ## 相比 VICReg 的改进 | 维度 | VICReg | SIGReg | |------|--------|--------| | 损失项 | 方差 + 协方差 + 不变性(3项) | 预测 + 高斯匹配(2项) | | 超参数 | PLDM 中 6 个可调超参 | 1 个有效超参 $\lambda$ | | 训练稳定性 | 各项拉扯 | 单调收敛 | | 理论依据 | 启发式约束 | 线性可识别性理论 | ## 工程意义 LeWorldModel 之前,端到端 JEPA 世界模型(PLDM)需 6 个可调超参数的组合。LeWorldModel 用 SIGReg 将其压缩为 **2 个损失项 + 1 个超参数 $\lambda$**,能在单张 GPU 上几小时内从原始像素稳定训练。 **一句话:SIGReg 把"防坍塌"从工程启发式转化为数学上更干净的分布匹配问题。** ## 局限性 在数据多样性有限、环境内在维度很低的简单场景中,SIGReg 强制匹配高维各向同性高斯先验会导致表征学习困难。 ## 来源 - [[lecun-llm-boundary-future|原始文章]] - [[leworldmodel|LeWorldModel]] - [[jepa|JEPA]] - [[representation-collapse|表征坍缩]]