Files
myWiki/concepts/jepa.md

73 lines
3.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "JEPA (Joint Embedding Predictive Architecture)"
created: 2026-06-08
updated: 2026-06-08
type: concept
tags: [world-model, LeCun, self-supervised-learning, representation-learning]
sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://arxiv.org/abs/2301.08243, https://arxiv.org/abs/2603.19312]
---
# JEPA (Joint Embedding Predictive Architecture)
**联合嵌入预测架构**Yann LeCun 提出的自监督学习范式,是构建 [[world-model-lecun|世界模型]] 的核心方法论。
## 核心思想
**在抽象表征空间(而非像素或 token 空间)中做预测。** 与传统生成模型不同JEPA 不试图重建输入细节,而是学习"什么样的表征是可预测的"。
## 数学框架
给定数据样本的两个不同视角 $O_t$ 和 $O_{t+1}$
$$Z_t = Enc(O_t), \quad Z_{t+1} = Enc(O_{t+1})$$
$$\hat{Z}_{t+1} = Pred(Z_t, a_t)$$
训练目标:最小化预测表征与真实表征的误差(非像素重建):
$$\mathcal{L} = \|\hat{Z}_{t+1} - sg(Z_{t+1})\|^2$$
其中 $sg(\cdot)$ 表示 **stop-gradient**——防止预测器通过解码捷径"偷懒",强制真正学会从 $s_x$ 推断 $s_y$。
## 与生成式模型的关键分叉
| 维度 | 生成式世界模型 (Genie/Sora/Dreamer) | JEPA |
|------|-----------------------------------|------|
| 训练目标 | 最大似然重建像素/token | 语义层可预测性 |
| 预测空间 | 像素空间196K维 | 潜在空间192维 |
| 容量分配 | 浪费于纹理、光照、水面折射等不可预测细节 | 集中于因果结构 |
| 规划能力 | 潜空间与决策脱节 | 潜空间可直接做轨迹优化 |
| 典型代表 | Sora, DreamerV3, Genie | I-JEPA, V-JEPA, LeWorldModel |
## 为什么不在像素空间预测?
**水瓶类比**:推一个无盖水瓶的底部,它会在桌面滑动;推顶部,它可能翻倒——但你永远无法精确预测倒向哪个方向。像素空间的**不可约不确定性**(桌面微观摩擦、空气扰动、液体湍流)意味着建模 $P(pixel_{t+1}|action_t)$ 要求掌握从分子动力学到流体力学的全部物理知识。
## 核心组成
1. **联合编码器 (Joint Encoder)**:将 $x$ 和 $y$ 映射到同一潜在空间 $s_x$, $s_y$(共享权重)
2. **预测器 (Predictor)**:基于 $s_x$ 和可选动作条件 $a_t$,在潜在空间预测 $\hat{s}_y$
3. **Stop-Gradient**:防止梯度通过 $s_y$ 回传——这是反[[representation-collapse|表征坍缩]]的关键技巧
## 防坍塌挑战
JEPA 训练面临的核心挑战是 **[[representation-collapse|表征坍缩]]**:模型将所有输入映射为同一向量,损失函数依然下降但什么也没学到。解决方案从对比学习 → 蒸馏方法(BYOL/DINO) → 显式正则化([[vicreg|VICReg]] → [[sigreg|SIGReg]])逐步演进。
## 从JEPA到世界模型
当 $a_t$ 扩展为动作条件时JEPA 从表征学习工具变为世界模型:
> 给定当前状态表征 + 候选动作 → 预测未来状态表征
智能体可在想象的行动空间中迭代搜索最优动作序列——这正是 [[objective-driven-ai|目标驱动AI]] 的核心。
## 代表性工作
- **I-JEPA (2023)**:从图像学习语义表征
- **V-JEPA (2024)**:从视频学习视觉表征
- **[[leworldmodel|LeWorldModel]] (2026)**:首个端到端训练的 JEPA 世界模型15M 参数从原始像素稳定训练
## 来源
- [[lecun-llm-boundary-future|LeCun 论 LLM 的边界与未来架构]]
- LeCun et al., *A Path Towards Autonomous Machine Intelligence*
- LeWorldModel: https://arxiv.org/abs/2603.19312