--- title: "LeWorldModel" created: 2026-06-08 updated: 2026-06-08 type: concept tags: [world-model, JEPA, LeCun, SIGReg, planning] sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://arxiv.org/abs/2603.19312] --- # LeWorldModel 2026年3月 LeCun 团队发表的首个端到端训练的 [[jepa|JEPA]] 世界模型,15M 参数,从原始像素稳定训练。是 LeCun 在访谈中**唯一推荐**的具体世界模型论文。 ## 架构 ### 编码器 (ViT-Tiny, ~5M 参数) | 配置 | 值 | |------|-----| | 架构 | Vision Transformer | | Patch Size | 14×14 | | 层数 | 12 | | 注意力头 | 3 | | 隐藏维 | 192 | | 输出 | [CLS] token → MLP + **BatchNorm** → 潜在表示 | > ⚠️ 使用 BatchNorm 而非 LayerNorm:LayerNorm 限制表示分布方差,阻碍 [[sigreg|SIGReg]] 有效优化。 ### 预测器 (Transformer, ~10M 参数) | 配置 | 值 | |------|-----| | 层数 | 6 | | 注意力头 | 16 | | Dropout | 10% | | 动作注入 | AdaLN (自适应层归一化) | - 动作条件通过 AdaLN 注入每层,参数初始化为零(渐进式影响) - 时间因果掩码自回归预测下一帧表示 ### 训练目标 $$\mathcal{L} = \underbrace{\|\text{Pred}(Enc(O_t), a_t) - Enc(y)\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}$$ 将 PLDM 的 **7 项损失 + 6 个超参**压缩为 **2 项 + 1 个 $\lambda$**。 ## 性能 | 指标 | 结果 | |------|------| | Push-T 成功率 | **96%**(PLDM 提升 18%) | | 训练稳定性 | 单调收敛,无损失项拉扯 | | 规划速度 vs DINO-WM | **快 ~50×**(token数减少 ~200×) | | 参数规模 | 15M(vs DINO-WM 依赖 DINOv2 1.24亿图像预训练) | ## 局限 1. **短视界规划**:自回归推演误差随规划长度累积 2. **离线数据依赖**:简单场景中 SIGReg 强制高维高斯先验可能适得其反 3. **动作标签依赖**:需显式动作标签(可用逆动力学建模缓解) 4. **非通用世界模型**:实验限于 Push-T、Reacher、TwoRoom、OGBench-Cube 等低维受控任务 ## 定位 **JEPA 路线的重要里程碑,而非世界模型的最终答案。** 验证了 JEPA 世界模型路线的工程可行性,但尚未证明开放世界中的长期推理和跨场景泛化。 LeCun 12-18个月规划:工业场景演示(机器人 + 工业过程控制)。 ## 参考 - [[lecun-llm-boundary-future|Datawhale 系统梳理]] - [[maes-leworldmodel-2026|LeWorldModel 论文]] - [[jepa|JEPA]] - [[sigreg|SIGReg]] - [[world-model-lecun|LeCun 世界模型]]