---
title: "SIGReg (Sketch Isotropic Gaussian Regularization)"
created: 2026-06-08
updated: 2026-06-08
type: concept
tags: [regularization, JEPA, representation-learning, LeCun, world-model]
sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://arxiv.org/pdf/2511.08544.pdf]
---

# SIGReg (Sketch Isotropic Gaussian Regularization)

**草图各向同性高斯正则化**，LeCun 团队提出的防[[representation-collapse|表征坍缩]]方案。首次发表于 *LeJEPA* (2025.11)，成功应用于 [[leworldmodel|LeWorldModel]] (2026.03)。

## 核心思想

**强迫潜在嵌入的分布匹配一个各向同性高斯分布 $N(0,I)$。** 这是当前最简洁有效的防坍塌方法。

## 为什么选择高斯分布？

2026年5月 LeCun 团队的理论工作 *When Does LeJEPA Learn a World Model?* 证明：
- LeJEPA（对齐 + 各向同性高斯正则化）**当且仅当**潜在分布为高斯时，能从非线性观测中线性恢复世界的真实潜在变量
- 这一性质称为**线性可识别性**（linear identifiability）：隐空间规划与真实空间规划的最优等价性

## 实现原理

利用 **Cramér-Wold 定理**：一个多元分布是高斯分布，当且仅当它在**所有一维随机投影下**都是高斯分布。

### 三步实现

1. **随机投影**：将批次表征 $Z \in \mathbb{R}^{N \times B \times d}$ 往随机方向 $u^m$ 投影，得到一维序列 $h^m = Z \cdot u^m$
2. **正态性检验**：对每个投影计算 **Epps-Pulley 统计量**（基于特征函数的正态性检验，对厚尾、多峰敏感），衡量偏离高斯分布的程度
3. **聚合惩罚**：对所有投影的检验统计量取平均，作为正则化损失

### 完整训练目标

$$\mathcal{L}_{total} = \underbrace{\|\hat{Z}_{t+1} - Z_{t+1}\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}$$

## 相比 VICReg 的改进

| 维度 | VICReg | SIGReg |
|------|--------|--------|
| 损失项 | 方差 + 协方差 + 不变性（3项） | 预测 + 高斯匹配（2项） |
| 超参数 | PLDM 中 6 个可调超参 | 1 个有效超参 $\lambda$ |
| 训练稳定性 | 各项拉扯 | 单调收敛 |
| 理论依据 | 启发式约束 | 线性可识别性理论 |

## 工程意义

LeWorldModel 之前，端到端 JEPA 世界模型（PLDM）需 6 个可调超参数的组合。LeWorldModel 用 SIGReg 将其压缩为 **2 个损失项 + 1 个超参数 $\lambda$**，能在单张 GPU 上几小时内从原始像素稳定训练。

**一句话：SIGReg 把"防坍塌"从工程启发式转化为数学上更干净的分布匹配问题。**

## 局限性

在数据多样性有限、环境内在维度很低的简单场景中，SIGReg 强制匹配高维各向同性高斯先验会导致表征学习困难。

## 来源

- [[lecun-llm-boundary-future|原始文章]]
- [[leworldmodel|LeWorldModel]]
- [[jepa|JEPA]]
- [[representation-collapse|表征坍缩]]