JEPA (Joint Embedding Predictive Architecture)

联合嵌入预测架构，Yann LeCun 提出的自监督学习范式，是构建 world-model-lecun 的核心方法论。

核心思想

在抽象表征空间（而非像素或 token 空间）中做预测。 与传统生成模型不同，JEPA 不试图重建输入细节，而是学习"什么样的表征是可预测的"。

给定数据样本的两个不同视角 O_t 和 $O_{t+1}$：

Z_t = Enc(O_t), \quad Z_{t+1} = Enc(O_{t+1}) \hat{Z}_{t+1} = Pred(Z_t, a_t)

训练目标：最小化预测表征与真实表征的误差（非像素重建）：

\mathcal{L} = \|\hat{Z}_{t+1} - sg(Z_{t+1})\|^2

其中 sg(\cdot) 表示 stop-gradient——防止预测器通过解码捷径"偷懒"，强制真正学会从 s_x 推断 $s_y$。

水瓶类比：推一个无盖水瓶的底部，它会在桌面滑动；推顶部，它可能翻倒——但你永远无法精确预测倒向哪个方向。像素空间的不可约不确定性（桌面微观摩擦、空气扰动、液体湍流）意味着建模 P(pixel_{t+1}|action_t) 要求掌握从分子动力学到流体力学的全部物理知识。

JEPA 训练面临的核心挑战是 representation-collapse：模型将所有输入映射为同一向量，损失函数依然下降但什么也没学到。解决方案从对比学习 → 蒸馏方法(BYOL/DINO) → 显式正则化(vicreg → sigreg)逐步演进。

当 a_t 扩展为动作条件时，JEPA 从表征学习工具变为世界模型：

给定当前状态表征 + 候选动作 → 预测未来状态表征

智能体可在想象的行动空间中迭代搜索最优动作序列——这正是 objective-driven-ai 的核心。