2.5 KiB
2.5 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| LeWorldModel | 2026-06-08 | 2026-06-08 | concept |
|
|
LeWorldModel
2026年3月 LeCun 团队发表的首个端到端训练的 jepa 世界模型,15M 参数,从原始像素稳定训练。是 LeCun 在访谈中唯一推荐的具体世界模型论文。
架构
编码器 (ViT-Tiny, ~5M 参数)
| 配置 | 值 |
|---|---|
| 架构 | Vision Transformer |
| Patch Size | 14×14 |
| 层数 | 12 |
| 注意力头 | 3 |
| 隐藏维 | 192 |
| 输出 | [CLS] token → MLP + BatchNorm → 潜在表示 |
⚠️ 使用 BatchNorm 而非 LayerNorm:LayerNorm 限制表示分布方差,阻碍 sigreg 有效优化。
预测器 (Transformer, ~10M 参数)
| 配置 | 值 |
|---|---|
| 层数 | 6 |
| 注意力头 | 16 |
| Dropout | 10% |
| 动作注入 | AdaLN (自适应层归一化) |
- 动作条件通过 AdaLN 注入每层,参数初始化为零(渐进式影响)
- 时间因果掩码自回归预测下一帧表示
训练目标
\mathcal{L} = \underbrace{\|\text{Pred}(Enc(O_t), a_t) - Enc(y)\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}
将 PLDM 的 7 项损失 + 6 个超参压缩为 2 项 + 1 个 $\lambda$。
性能
| 指标 | 结果 |
|---|---|
| Push-T 成功率 | 96%(PLDM 提升 18%) |
| 训练稳定性 | 单调收敛,无损失项拉扯 |
| 规划速度 vs DINO-WM | 快 ~50×(token数减少 ~200×) |
| 参数规模 | 15M(vs DINO-WM 依赖 DINOv2 1.24亿图像预训练) |
局限
- 短视界规划:自回归推演误差随规划长度累积
- 离线数据依赖:简单场景中 SIGReg 强制高维高斯先验可能适得其反
- 动作标签依赖:需显式动作标签(可用逆动力学建模缓解)
- 非通用世界模型:实验限于 Push-T、Reacher、TwoRoom、OGBench-Cube 等低维受控任务
定位
JEPA 路线的重要里程碑,而非世界模型的最终答案。 验证了 JEPA 世界模型路线的工程可行性,但尚未证明开放世界中的长期推理和跨场景泛化。
LeCun 12-18个月规划:工业场景演示(机器人 + 工业过程控制)。