Files
myWiki/concepts/jepa.md

3.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
JEPA (Joint Embedding Predictive Architecture) 2026-06-08 2026-06-08 concept
world-model
LeCun
self-supervised-learning
representation-learning
raw/articles/lecun-llm-boundary-future-2026.md
https://arxiv.org/abs/2301.08243
https://arxiv.org/abs/2603.19312

JEPA (Joint Embedding Predictive Architecture)

联合嵌入预测架构Yann LeCun 提出的自监督学习范式,是构建 world-model-lecun 的核心方法论。

核心思想

在抽象表征空间(而非像素或 token 空间)中做预测。 与传统生成模型不同JEPA 不试图重建输入细节,而是学习"什么样的表征是可预测的"。

数学框架

给定数据样本的两个不同视角 O_t 和 $O_{t+1}$

Z_t = Enc(O_t), \quad Z_{t+1} = Enc(O_{t+1}) \hat{Z}_{t+1} = Pred(Z_t, a_t)

训练目标:最小化预测表征与真实表征的误差(非像素重建):

\mathcal{L} = \|\hat{Z}_{t+1} - sg(Z_{t+1})\|^2

其中 sg(\cdot) 表示 stop-gradient——防止预测器通过解码捷径"偷懒",强制真正学会从 s_x 推断 $s_y$。

与生成式模型的关键分叉

维度 生成式世界模型 (Genie/Sora/Dreamer) JEPA
训练目标 最大似然重建像素/token 语义层可预测性
预测空间 像素空间196K维 潜在空间192维
容量分配 浪费于纹理、光照、水面折射等不可预测细节 集中于因果结构
规划能力 潜空间与决策脱节 潜空间可直接做轨迹优化
典型代表 Sora, DreamerV3, Genie I-JEPA, V-JEPA, LeWorldModel

为什么不在像素空间预测?

水瓶类比:推一个无盖水瓶的底部,它会在桌面滑动;推顶部,它可能翻倒——但你永远无法精确预测倒向哪个方向。像素空间的不可约不确定性(桌面微观摩擦、空气扰动、液体湍流)意味着建模 P(pixel_{t+1}|action_t) 要求掌握从分子动力学到流体力学的全部物理知识。

核心组成

  1. 联合编码器 (Joint Encoder):将 xy 映射到同一潜在空间 s_x, $s_y$(共享权重)
  2. 预测器 (Predictor):基于 s_x 和可选动作条件 $a_t$,在潜在空间预测 \hat{s}_y
  3. Stop-Gradient:防止梯度通过 s_y 回传——这是反representation-collapse的关键技巧

防坍塌挑战

JEPA 训练面临的核心挑战是 representation-collapse:模型将所有输入映射为同一向量,损失函数依然下降但什么也没学到。解决方案从对比学习 → 蒸馏方法(BYOL/DINO) → 显式正则化(vicregsigreg)逐步演进。

从JEPA到世界模型

a_t 扩展为动作条件时JEPA 从表征学习工具变为世界模型:

给定当前状态表征 + 候选动作 → 预测未来状态表征

智能体可在想象的行动空间中迭代搜索最优动作序列——这正是 objective-driven-ai 的核心。

代表性工作

  • I-JEPA (2023):从图像学习语义表征
  • V-JEPA (2024):从视频学习视觉表征
  • leworldmodel (2026):首个端到端训练的 JEPA 世界模型15M 参数从原始像素稳定训练

来源