myWiki/concepts/leworldmodel.md

---
title: "LeWorldModel"
created: 2026-06-08
updated: 2026-06-08
type: concept
tags: [world-model, JEPA, LeCun, SIGReg, planning]
sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://arxiv.org/abs/2603.19312]
---

# LeWorldModel

2026年3月 LeCun 团队发表的首个端到端训练的 [[jepa|JEPA]] 世界模型，15M 参数，从原始像素稳定训练。是 LeCun 在访谈中**唯一推荐**的具体世界模型论文。

## 架构

### 编码器 (ViT-Tiny, ~5M 参数)

| 配置 | 值 |
|------|-----|
| 架构 | Vision Transformer |
| Patch Size | 14×14 |
| 层数 | 12 |
| 注意力头 | 3 |
| 隐藏维 | 192 |
| 输出 | [CLS] token → MLP + **BatchNorm** → 潜在表示 |

> ⚠️ 使用 BatchNorm 而非 LayerNorm：LayerNorm 限制表示分布方差，阻碍 [[sigreg|SIGReg]] 有效优化。

### 预测器 (Transformer, ~10M 参数)

| 配置 | 值 |
|------|-----|
| 层数 | 6 |
| 注意力头 | 16 |
| Dropout | 10% |
| 动作注入 | AdaLN (自适应层归一化) |

- 动作条件通过 AdaLN 注入每层，参数初始化为零（渐进式影响）
- 时间因果掩码自回归预测下一帧表示

### 训练目标

$$\mathcal{L} = \underbrace{\|\text{Pred}(Enc(O_t), a_t) - Enc(y)\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}$$

将 PLDM 的 **7 项损失 + 6 个超参**压缩为 **2 项 + 1 个 $\lambda$**。

## 性能

| 指标 | 结果 |
|------|------|
| Push-T 成功率 | **96%**（PLDM 提升 18%） |
| 训练稳定性 | 单调收敛，无损失项拉扯 |
| 规划速度 vs DINO-WM | **快 ~50×**（token数减少 ~200×） |
| 参数规模 | 15M（vs DINO-WM 依赖 DINOv2 1.24亿图像预训练） |

## 局限

1. **短视界规划**：自回归推演误差随规划长度累积
2. **离线数据依赖**：简单场景中 SIGReg 强制高维高斯先验可能适得其反
3. **动作标签依赖**：需显式动作标签（可用逆动力学建模缓解）
4. **非通用世界模型**：实验限于 Push-T、Reacher、TwoRoom、OGBench-Cube 等低维受控任务

## 定位

**JEPA 路线的重要里程碑，而非世界模型的最终答案。** 验证了 JEPA 世界模型路线的工程可行性，但尚未证明开放世界中的长期推理和跨场景泛化。

LeCun 12-18个月规划：工业场景演示（机器人 + 工业过程控制）。

## 参考

- [[lecun-llm-boundary-future|Datawhale 系统梳理]]
- [[maes-leworldmodel-2026|LeWorldModel 论文]]
- [[jepa|JEPA]]
- [[sigreg|SIGReg]]
- [[world-model-lecun|LeCun 世界模型]]