Files
myWiki/concepts/sigreg.md

2.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
SIGReg (Sketch Isotropic Gaussian Regularization) 2026-06-08 2026-06-08 concept
regularization
JEPA
representation-learning
LeCun
world-model
raw/articles/lecun-llm-boundary-future-2026.md
https://arxiv.org/pdf/2511.08544.pdf

SIGReg (Sketch Isotropic Gaussian Regularization)

草图各向同性高斯正则化LeCun 团队提出的防representation-collapse方案。首次发表于 LeJEPA (2025.11),成功应用于 leworldmodel (2026.03)。

核心思想

强迫潜在嵌入的分布匹配一个各向同性高斯分布 $N(0,I)$。 这是当前最简洁有效的防坍塌方法。

为什么选择高斯分布?

2026年5月 LeCun 团队的理论工作 When Does LeJEPA Learn a World Model? 证明:

  • LeJEPA对齐 + 各向同性高斯正则化)当且仅当潜在分布为高斯时,能从非线性观测中线性恢复世界的真实潜在变量
  • 这一性质称为线性可识别性linear identifiability隐空间规划与真实空间规划的最优等价性

实现原理

利用 Cramér-Wold 定理:一个多元分布是高斯分布,当且仅当它在所有一维随机投影下都是高斯分布。

三步实现

  1. 随机投影:将批次表征 Z \in \mathbb{R}^{N \times B \times d} 往随机方向 u^m 投影,得到一维序列 h^m = Z \cdot u^m
  2. 正态性检验:对每个投影计算 Epps-Pulley 统计量(基于特征函数的正态性检验,对厚尾、多峰敏感),衡量偏离高斯分布的程度
  3. 聚合惩罚:对所有投影的检验统计量取平均,作为正则化损失

完整训练目标

\mathcal{L}_{total} = \underbrace{\|\hat{Z}_{t+1} - Z_{t+1}\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}

相比 VICReg 的改进

维度 VICReg SIGReg
损失项 方差 + 协方差 + 不变性3项 预测 + 高斯匹配2项
超参数 PLDM 中 6 个可调超参 1 个有效超参 \lambda
训练稳定性 各项拉扯 单调收敛
理论依据 启发式约束 线性可识别性理论

工程意义

LeWorldModel 之前,端到端 JEPA 世界模型PLDM需 6 个可调超参数的组合。LeWorldModel 用 SIGReg 将其压缩为 2 个损失项 + 1 个超参数 $\lambda$,能在单张 GPU 上几小时内从原始像素稳定训练。

一句话SIGReg 把"防坍塌"从工程启发式转化为数学上更干净的分布匹配问题。

局限性

在数据多样性有限、环境内在维度很低的简单场景中SIGReg 强制匹配高维各向同性高斯先验会导致表征学习困难。

来源