20260617:目前有914 页
This commit is contained in:
75
concepts/leworldmodel.md
Normal file
75
concepts/leworldmodel.md
Normal file
@@ -0,0 +1,75 @@
|
||||
---
|
||||
title: "LeWorldModel"
|
||||
created: 2026-06-08
|
||||
updated: 2026-06-08
|
||||
type: concept
|
||||
tags: [world-model, JEPA, LeCun, SIGReg, planning]
|
||||
sources: [raw/articles/lecun-llm-boundary-future-2026.md, https://arxiv.org/abs/2603.19312]
|
||||
---
|
||||
|
||||
# LeWorldModel
|
||||
|
||||
2026年3月 LeCun 团队发表的首个端到端训练的 [[jepa|JEPA]] 世界模型,15M 参数,从原始像素稳定训练。是 LeCun 在访谈中**唯一推荐**的具体世界模型论文。
|
||||
|
||||
## 架构
|
||||
|
||||
### 编码器 (ViT-Tiny, ~5M 参数)
|
||||
|
||||
| 配置 | 值 |
|
||||
|------|-----|
|
||||
| 架构 | Vision Transformer |
|
||||
| Patch Size | 14×14 |
|
||||
| 层数 | 12 |
|
||||
| 注意力头 | 3 |
|
||||
| 隐藏维 | 192 |
|
||||
| 输出 | [CLS] token → MLP + **BatchNorm** → 潜在表示 |
|
||||
|
||||
> ⚠️ 使用 BatchNorm 而非 LayerNorm:LayerNorm 限制表示分布方差,阻碍 [[sigreg|SIGReg]] 有效优化。
|
||||
|
||||
### 预测器 (Transformer, ~10M 参数)
|
||||
|
||||
| 配置 | 值 |
|
||||
|------|-----|
|
||||
| 层数 | 6 |
|
||||
| 注意力头 | 16 |
|
||||
| Dropout | 10% |
|
||||
| 动作注入 | AdaLN (自适应层归一化) |
|
||||
|
||||
- 动作条件通过 AdaLN 注入每层,参数初始化为零(渐进式影响)
|
||||
- 时间因果掩码自回归预测下一帧表示
|
||||
|
||||
### 训练目标
|
||||
|
||||
$$\mathcal{L} = \underbrace{\|\text{Pred}(Enc(O_t), a_t) - Enc(y)\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}$$
|
||||
|
||||
将 PLDM 的 **7 项损失 + 6 个超参**压缩为 **2 项 + 1 个 $\lambda$**。
|
||||
|
||||
## 性能
|
||||
|
||||
| 指标 | 结果 |
|
||||
|------|------|
|
||||
| Push-T 成功率 | **96%**(PLDM 提升 18%) |
|
||||
| 训练稳定性 | 单调收敛,无损失项拉扯 |
|
||||
| 规划速度 vs DINO-WM | **快 ~50×**(token数减少 ~200×) |
|
||||
| 参数规模 | 15M(vs DINO-WM 依赖 DINOv2 1.24亿图像预训练) |
|
||||
|
||||
## 局限
|
||||
|
||||
1. **短视界规划**:自回归推演误差随规划长度累积
|
||||
2. **离线数据依赖**:简单场景中 SIGReg 强制高维高斯先验可能适得其反
|
||||
3. **动作标签依赖**:需显式动作标签(可用逆动力学建模缓解)
|
||||
4. **非通用世界模型**:实验限于 Push-T、Reacher、TwoRoom、OGBench-Cube 等低维受控任务
|
||||
|
||||
## 定位
|
||||
|
||||
**JEPA 路线的重要里程碑,而非世界模型的最终答案。** 验证了 JEPA 世界模型路线的工程可行性,但尚未证明开放世界中的长期推理和跨场景泛化。
|
||||
|
||||
LeCun 12-18个月规划:工业场景演示(机器人 + 工业过程控制)。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[lecun-llm-boundary-future|Datawhale 系统梳理]]
|
||||
- [[maes-leworldmodel-2026|LeWorldModel 论文]]
|
||||
- [[jepa|JEPA]]
|
||||
- [[sigreg|SIGReg]]
|
||||
- [[world-model-lecun|LeCun 世界模型]]
|
||||
Reference in New Issue
Block a user