Files
myWiki/concepts/vicreg.md

2.2 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
VICReg (Variance-Invariance-Covariance Regularization) 2026-06-08 2026-06-08 concept
regularization
self-supervised-learning
JEPA
representation-learning
raw/articles/lecun-llm-boundary-future-2026.md

VICReg (Variance-Invariance-Covariance Regularization)

方差-不变性-协方差正则化,端到端 JEPA 模型(如 PLDM采用的防representation-collapse方案。不依赖负样本,直接在表征的统计特性上施加约束。

三项损失

\mathcal{L}_{VICReg} = \underbrace{\lambda \mathcal{L}_{inv}}_{\text{不变性}} + \underbrace{\mu \mathcal{L}_{var}}_{\text{方差}} + \underbrace{\nu \mathcal{L}_{cov}}_{\text{协方差}}

1. 不变性 (Invariance)

\mathcal{L}_{inv} = \frac{1}{n} \sum_{i=1}^{n} \|s_i - s'_i\|^2

同一输入的不同增强/视角,编码器输出应相似。保证表征对无关变换(光照、裁剪、视角)具有鲁棒性。

2. 方差 (Variance)

\mathcal{L}_{var} = \frac{1}{d} \sum_{j=1}^{d} \max(0, \gamma - \sqrt{\text{Var}(s_j) + \epsilon})

逐维度计算标准差,强制大于阈值 $\gamma$。防止所有样本挤在同一数值上——强迫编码器利用每一个维度携带信息。

3. 协方差 (Covariance)

\mathcal{L}_{cov} = \sum_{j \neq k} C(S)^2_{jk}

批次表征协方差矩阵的非对角元素平方和。防止维度之间"串供"——所有信息压缩在2-3个维度其他维度冗余。强迫各维度独立携带不同信息提高有效容量。

效果与局限

效果:成功对抗表征坍塌,被 PLDM 等模型采用

局限:

  • 扩展到世界模型时需组合多个损失项超参数数量增加PLDM 需 6 个可调超参)
  • 各项损失之间互相拉扯,训练不稳定

演进VICReg → sigreg

VICReg 已有成熟工作但超参数过多。SIGReg 在其基础上精化:将三项启发式约束统一为一个数学上更干净的分布匹配问题——强制嵌入分布匹配各向同性高斯分布。LeWorldModel 用 SIGReg 将超参数从 6 个压缩到 1 个 $\lambda$。

来源