SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.5 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

LeWorldModel

2026-06-08

2026-06-08

concept

world-model

JEPA

LeCun

SIGReg

planning

raw/articles/lecun-llm-boundary-future-2026.md

https://arxiv.org/abs/2603.19312

LeWorldModel

2026年3月 LeCun 团队发表的首个端到端训练的 jepa 世界模型，15M 参数，从原始像素稳定训练。是 LeCun 在访谈中唯一推荐的具体世界模型论文。

架构

编码器 (ViT-Tiny, ~5M 参数)

配置	值
架构	Vision Transformer
Patch Size	14×14
层数	12
注意力头	3
隐藏维	192
输出	[CLS] token → MLP + BatchNorm → 潜在表示

⚠️ 使用 BatchNorm 而非 LayerNorm：LayerNorm 限制表示分布方差，阻碍 sigreg 有效优化。

预测器 (Transformer, ~10M 参数)

配置	值
层数	6
注意力头	16
Dropout	10%
动作注入	AdaLN (自适应层归一化)

动作条件通过 AdaLN 注入每层，参数初始化为零（渐进式影响）
时间因果掩码自回归预测下一帧表示

训练目标

\mathcal{L} = \underbrace{\|\text{Pred}(Enc(O_t), a_t) - Enc(y)\|^2}_{\text{预测损失}} + \underbrace{\lambda \cdot SIGReg(Z)}_{\text{高斯正则化}}

将 PLDM 的 7 项损失 + 6 个超参压缩为 2 项 + 1 个 $\lambda$。

性能

指标	结果
Push-T 成功率	96%（PLDM 提升 18%）
训练稳定性	单调收敛，无损失项拉扯
规划速度 vs DINO-WM	快 ~50×（token数减少 ~200×）
参数规模	15M（vs DINO-WM 依赖 DINOv2 1.24亿图像预训练）

局限

短视界规划：自回归推演误差随规划长度累积
离线数据依赖：简单场景中 SIGReg 强制高维高斯先验可能适得其反
动作标签依赖：需显式动作标签（可用逆动力学建模缓解）
非通用世界模型：实验限于 Push-T、Reacher、TwoRoom、OGBench-Cube 等低维受控任务

定位

JEPA 路线的重要里程碑，而非世界模型的最终答案。 验证了 JEPA 世界模型路线的工程可行性，但尚未证明开放世界中的长期推理和跨场景泛化。

LeCun 12-18个月规划：工业场景演示（机器人 + 工业过程控制）。

参考