title, created, updated, type, tags, sources, arxiv, venue
| title |
created |
updated |
type |
tags |
sources |
arxiv |
venue |
| LeWorldModel: Stable End-to-End JEPA from Pixels |
2026-06-08 |
2026-06-08 |
paper |
| world-model |
| JEPA |
| LeCun |
| SIGReg |
| end-to-end |
| planning |
|
|
2603.19312v3 |
Preprint, 2026 |
LeWorldModel: Stable End-to-End JEPA from Pixels
作者: Lucas Maes*, Quentin Le Lidec*, Damien Scieur, Yann LeCun, Randall Balestriero
机构: Mila/UdeM, NYU, Samsung SAIL, Brown University
完整摘要: raw/papers/maes-leworldmodel-2026.md
一句话
首个无需 stop-gradient、EMA 或预训练编码器的端到端 JEPA 世界模型——仅 2 个损失项 + 1 个超参,15M 参数单 GPU 数小时训练,规划速度比 DINO-WM 快 48×,Push-T 成功率 96%。
核心贡献
- 消除训练启发式:无 stop-gradient、无 EMA、无预训练编码器——纯粹从像素端到端训练
- 极简训练目标:预测损失 + sigreg 正则化,超参从 6 → 1
- 速度与性能兼得:规划速度 DINO-WM 的 48×,控制任务与 SOTA 持平或更优
- 物理理解:潜在空间编码有意义的物理量,可靠检测物理不合理事件(surprise evaluation)
技术要点
架构(15M 参数)
- 编码器: ViT-Tiny (5M), BatchNorm 投影头——不用 LN 以免限制 SIGReg
- 预测器: Transformer (10M), AdaLN 注入动作条件,时间因果掩码自回归
- 训练:
\mathcal{L} = \|\hat{Z}_{t+1} - Z_{t+1}\|^2 + \lambda \cdot SIGReg(Z)
关键设计决策
| 设计 |
理由 |
| BatchNorm 非 LayerNorm |
LN 限制表示分布方差,阻碍 SIGReg 优化 |
| AdaLN 零初始化 |
动作条件渐进式影响,避免剧烈改变预测器行为 |
| Epps-Pulley 检验 |
基于特征函数的正态性检验,对厚尾、多峰敏感 |
| 无 stop-gradient |
区别于 I-JEPA/V-JEPA,简化训练流程 |
对比定位
实验结果
- Push-T: 96.0%(PLDM 78%,提升 18%)
- Reacher / TwoRoom: 与 SOTA 持平或更优
- OGBench-Cube: 略逊 DINO-WM(后者受益于 DINOv2 1.24亿图像预训练)
- 规划速度: DINO-WM 的 48×(token 数减少 ~200×)
- 物理 probing: 潜在空间可线性 probe 出旋转量、位置等物理量
- Surprise 评估: 可靠检测物理不合理轨迹(violation of expectation)
局限
- 短视界规划——自回归误差随步长累积
- 依赖离线数据集,简单场景 SIGReg 可能过度正则化
- 需显式动作标签
- 实验限于低维受控任务,未在开放世界验证
概念网络
阅读路径