Files
myWiki/concepts/leworldmodel.md

2.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
LeWorldModel 2026-06-08 2026-06-08 concept
world-model
JEPA
LeCun
SIGReg
planning
raw/articles/lecun-llm-boundary-future-2026.md
https://arxiv.org/abs/2603.19312

LeWorldModel

2026年3月 LeCun 团队发表的首个端到端训练的 jepa 世界模型15M 参数,从原始像素稳定训练。是 LeCun 在访谈中唯一推荐的具体世界模型论文。

架构

编码器 (ViT-Tiny, ~5M 参数)

配置
架构 Vision Transformer
Patch Size 14×14
层数 12
注意力头 3
隐藏维 192
输出 [CLS] token → MLP + BatchNorm → 潜在表示

⚠️ 使用 BatchNorm 而非 LayerNormLayerNorm 限制表示分布方差,阻碍 sigreg 有效优化。

预测器 (Transformer, ~10M 参数)

配置
层数 6
注意力头 16
Dropout 10%
动作注入 AdaLN (自适应层归一化)
  • 动作条件通过 AdaLN 注入每层,参数初始化为零(渐进式影响)
  • 时间因果掩码自回归预测下一帧表示

训练目标

\mathcal{L} = \underbrace{\|\text{Pred}(Enc(O_t), a_t) - Enc(y)\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}

将 PLDM 的 7 项损失 + 6 个超参压缩为 2 项 + 1 个 $\lambda$

性能

指标 结果
Push-T 成功率 96%PLDM 提升 18%
训练稳定性 单调收敛,无损失项拉扯
规划速度 vs DINO-WM 快 ~50×token数减少 ~200×
参数规模 15Mvs DINO-WM 依赖 DINOv2 1.24亿图像预训练)

局限

  1. 短视界规划:自回归推演误差随规划长度累积
  2. 离线数据依赖:简单场景中 SIGReg 强制高维高斯先验可能适得其反
  3. 动作标签依赖:需显式动作标签(可用逆动力学建模缓解)
  4. 非通用世界模型:实验限于 Push-T、Reacher、TwoRoom、OGBench-Cube 等低维受控任务

定位

JEPA 路线的重要里程碑,而非世界模型的最终答案。 验证了 JEPA 世界模型路线的工程可行性,但尚未证明开放世界中的长期推理和跨场景泛化。

LeCun 12-18个月规划工业场景演示机器人 + 工业过程控制)。

参考