Files
myWiki/concepts/leworldmodel.md

76 lines
2.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "LeWorldModel"
created: 2026-06-08
updated: 2026-06-08
type: concept
tags: [world-model, JEPA, LeCun, SIGReg, planning]
sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://arxiv.org/abs/2603.19312]
---
# LeWorldModel
2026年3月 LeCun 团队发表的首个端到端训练的 [[jepa|JEPA]] 世界模型15M 参数,从原始像素稳定训练。是 LeCun 在访谈中**唯一推荐**的具体世界模型论文。
## 架构
### 编码器 (ViT-Tiny, ~5M 参数)
| 配置 | 值 |
|------|-----|
| 架构 | Vision Transformer |
| Patch Size | 14×14 |
| 层数 | 12 |
| 注意力头 | 3 |
| 隐藏维 | 192 |
| 输出 | [CLS] token → MLP + **BatchNorm** → 潜在表示 |
> ⚠️ 使用 BatchNorm 而非 LayerNormLayerNorm 限制表示分布方差,阻碍 [[sigreg|SIGReg]] 有效优化。
### 预测器 (Transformer, ~10M 参数)
| 配置 | 值 |
|------|-----|
| 层数 | 6 |
| 注意力头 | 16 |
| Dropout | 10% |
| 动作注入 | AdaLN (自适应层归一化) |
- 动作条件通过 AdaLN 注入每层,参数初始化为零(渐进式影响)
- 时间因果掩码自回归预测下一帧表示
### 训练目标
$$\mathcal{L} = \underbrace{\|\text{Pred}(Enc(O_t), a_t) - Enc(y)\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}$$
将 PLDM 的 **7 项损失 + 6 个超参**压缩为 **2 项 + 1 个 $\lambda$**
## 性能
| 指标 | 结果 |
|------|------|
| Push-T 成功率 | **96%**PLDM 提升 18% |
| 训练稳定性 | 单调收敛,无损失项拉扯 |
| 规划速度 vs DINO-WM | **快 ~50×**token数减少 ~200× |
| 参数规模 | 15Mvs DINO-WM 依赖 DINOv2 1.24亿图像预训练) |
## 局限
1. **短视界规划**:自回归推演误差随规划长度累积
2. **离线数据依赖**:简单场景中 SIGReg 强制高维高斯先验可能适得其反
3. **动作标签依赖**:需显式动作标签(可用逆动力学建模缓解)
4. **非通用世界模型**:实验限于 Push-T、Reacher、TwoRoom、OGBench-Cube 等低维受控任务
## 定位
**JEPA 路线的重要里程碑,而非世界模型的最终答案。** 验证了 JEPA 世界模型路线的工程可行性,但尚未证明开放世界中的长期推理和跨场景泛化。
LeCun 12-18个月规划工业场景演示机器人 + 工业过程控制)。
## 参考
- [[lecun-llm-boundary-future|Datawhale 系统梳理]]
- [[maes-leworldmodel-2026|LeWorldModel 论文]]
- [[jepa|JEPA]]
- [[sigreg|SIGReg]]
- [[world-model-lecun|LeCun 世界模型]]