54 lines
2.2 KiB
Markdown
54 lines
2.2 KiB
Markdown
---
|
||
title: "VICReg (Variance-Invariance-Covariance Regularization)"
|
||
created: 2026-06-08
|
||
updated: 2026-06-08
|
||
type: concept
|
||
tags: [regularization, self-supervised-learning, JEPA, representation-learning]
|
||
sources: [raw/articles/lecun-llm-boundary-future-2026.md]
|
||
---
|
||
|
||
# VICReg (Variance-Invariance-Covariance Regularization)
|
||
|
||
**方差-不变性-协方差正则化**,端到端 JEPA 模型(如 PLDM)采用的防[[representation-collapse|表征坍缩]]方案。不依赖负样本,直接在表征的统计特性上施加约束。
|
||
|
||
## 三项损失
|
||
|
||
$$\mathcal{L}_{VICReg} = \underbrace{\lambda \mathcal{L}_{inv}}_{\text{不变性}} + \underbrace{\mu \mathcal{L}_{var}}_{\text{方差}} + \underbrace{\nu \mathcal{L}_{cov}}_{\text{协方差}}$$
|
||
|
||
### 1. 不变性 (Invariance)
|
||
|
||
$$\mathcal{L}_{inv} = \frac{1}{n} \sum_{i=1}^{n} \|s_i - s'_i\|^2$$
|
||
|
||
同一输入的不同增强/视角,编码器输出应相似。保证表征对无关变换(光照、裁剪、视角)具有鲁棒性。
|
||
|
||
### 2. 方差 (Variance)
|
||
|
||
$$\mathcal{L}_{var} = \frac{1}{d} \sum_{j=1}^{d} \max(0, \gamma - \sqrt{\text{Var}(s_j) + \epsilon})$$
|
||
|
||
逐维度计算标准差,强制大于阈值 $\gamma$。**防止所有样本挤在同一数值上**——强迫编码器利用每一个维度携带信息。
|
||
|
||
### 3. 协方差 (Covariance)
|
||
|
||
$$\mathcal{L}_{cov} = \sum_{j \neq k} C(S)^2_{jk}$$
|
||
|
||
批次表征协方差矩阵的非对角元素平方和。**防止维度之间"串供"**——所有信息压缩在2-3个维度,其他维度冗余。强迫各维度独立携带不同信息,提高有效容量。
|
||
|
||
## 效果与局限
|
||
|
||
✅ 效果:成功对抗表征坍塌,被 PLDM 等模型采用
|
||
|
||
❌ 局限:
|
||
- 扩展到世界模型时需组合多个损失项,超参数数量增加(PLDM 需 6 个可调超参)
|
||
- 各项损失之间互相拉扯,训练不稳定
|
||
|
||
## 演进:VICReg → [[sigreg|SIGReg]]
|
||
|
||
VICReg 已有成熟工作但超参数过多。SIGReg 在其基础上精化:将三项启发式约束统一为**一个数学上更干净的分布匹配问题**——强制嵌入分布匹配各向同性高斯分布。LeWorldModel 用 SIGReg 将超参数从 6 个压缩到 1 个 $\lambda$。
|
||
|
||
## 来源
|
||
|
||
- [[lecun-llm-boundary-future|原始文章]]
|
||
- [[sigreg|SIGReg]]
|
||
- [[representation-collapse|表征坍缩]]
|
||
- [[jepa|JEPA]]
|