20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/jepa.md
+++ b/concepts/jepa.md
@@ -0,0 +1,72 @@
+---
+title: "JEPA (Joint Embedding Predictive Architecture)"
+created: 2026-06-08
+updated: 2026-06-08
+type: concept
+tags: [world-model, LeCun, self-supervised-learning, representation-learning]
+sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://arxiv.org/abs/2301.08243, https://arxiv.org/abs/2603.19312]
+---
+
+# JEPA (Joint Embedding Predictive Architecture)
+
+**联合嵌入预测架构**，Yann LeCun 提出的自监督学习范式，是构建 [[world-model-lecun|世界模型]] 的核心方法论。
+
+## 核心思想
+
+**在抽象表征空间（而非像素或 token 空间）中做预测。** 与传统生成模型不同，JEPA 不试图重建输入细节，而是学习"什么样的表征是可预测的"。
+
+## 数学框架
+
+给定数据样本的两个不同视角 $O_t$ 和 $O_{t+1}$：
+
+$$Z_t = Enc(O_t), \quad Z_{t+1} = Enc(O_{t+1})$$
+
+$$\hat{Z}_{t+1} = Pred(Z_t, a_t)$$
+
+训练目标：最小化预测表征与真实表征的误差（非像素重建）：
+$$\mathcal{L} = \|\hat{Z}_{t+1} - sg(Z_{t+1})\|^2$$
+
+其中 $sg(\cdot)$ 表示 **stop-gradient**——防止预测器通过解码捷径"偷懒"，强制真正学会从 $s_x$ 推断 $s_y$。
+
+## 与生成式模型的关键分叉
+
+| 维度 | 生成式世界模型 (Genie/Sora/Dreamer) | JEPA |
+|------|-----------------------------------|------|
+| 训练目标 | 最大似然重建像素/token | 语义层可预测性 |
+| 预测空间 | 像素空间（196K维） | 潜在空间（192维） |
+| 容量分配 | 浪费于纹理、光照、水面折射等不可预测细节 | 集中于因果结构 |
+| 规划能力 | 潜空间与决策脱节 | 潜空间可直接做轨迹优化 |
+| 典型代表 | Sora, DreamerV3, Genie | I-JEPA, V-JEPA, LeWorldModel |
+
+## 为什么不在像素空间预测？
+
+**水瓶类比**：推一个无盖水瓶的底部，它会在桌面滑动；推顶部，它可能翻倒——但你永远无法精确预测倒向哪个方向。像素空间的**不可约不确定性**（桌面微观摩擦、空气扰动、液体湍流）意味着建模 $P(pixel_{t+1}|action_t)$ 要求掌握从分子动力学到流体力学的全部物理知识。
+
+## 核心组成
+
+1. **联合编码器 (Joint Encoder)**：将 $x$ 和 $y$ 映射到同一潜在空间 $s_x$, $s_y$（共享权重）
+2. **预测器 (Predictor)**：基于 $s_x$ 和可选动作条件 $a_t$，在潜在空间预测 $\hat{s}_y$
+3. **Stop-Gradient**：防止梯度通过 $s_y$ 回传——这是反[[representation-collapse|表征坍缩]]的关键技巧
+
+## 防坍塌挑战
+
+JEPA 训练面临的核心挑战是 **[[representation-collapse|表征坍缩]]**：模型将所有输入映射为同一向量，损失函数依然下降但什么也没学到。解决方案从对比学习 → 蒸馏方法(BYOL/DINO) → 显式正则化([[vicreg|VICReg]] → [[sigreg|SIGReg]])逐步演进。
+
+## 从JEPA到世界模型
+
+当 $a_t$ 扩展为动作条件时，JEPA 从表征学习工具变为世界模型：
+> 给定当前状态表征 + 候选动作 → 预测未来状态表征
+
+智能体可在想象的行动空间中迭代搜索最优动作序列——这正是 [[objective-driven-ai|目标驱动AI]] 的核心。
+
+## 代表性工作
+
+- **I-JEPA (2023)**：从图像学习语义表征
+- **V-JEPA (2024)**：从视频学习视觉表征
+- **[[leworldmodel|LeWorldModel]] (2026)**：首个端到端训练的 JEPA 世界模型，15M 参数从原始像素稳定训练
+
+## 来源
+
+- [[lecun-llm-boundary-future|LeCun 论 LLM 的边界与未来架构]]
+- LeCun et al., *A Path Towards Autonomous Machine Intelligence*
+- LeWorldModel: https://arxiv.org/abs/2603.19312