LeWorldModel: Stable End-to-End JEPA from Pixels

作者: Lucas Maes*, Quentin Le Lidec*, Damien Scieur, Yann LeCun, Randall Balestriero 机构: Mila/UdeM, NYU, Samsung SAIL, Brown University 完整摘要: raw/papers/maes-leworldmodel-2026.md

一句话

首个无需 stop-gradient、EMA 或预训练编码器的端到端 JEPA 世界模型——仅 2 个损失项 + 1 个超参，15M 参数单 GPU 数小时训练，规划速度比 DINO-WM 快 48×，Push-T 成功率 96%。

核心贡献

消除训练启发式：无 stop-gradient、无 EMA、无预训练编码器——纯粹从像素端到端训练
极简训练目标：预测损失 + sigreg 正则化，超参从 6 → 1
速度与性能兼得：规划速度 DINO-WM 的 48×，控制任务与 SOTA 持平或更优
物理理解：潜在空间编码有意义的物理量，可靠检测物理不合理事件（surprise evaluation）

技术要点

架构（15M 参数）

编码器: ViT-Tiny (5M), BatchNorm 投影头——不用 LN 以免限制 SIGReg
预测器: Transformer (10M), AdaLN 注入动作条件，时间因果掩码自回归
训练: \mathcal{L} = \|\hat{Z}_{t+1} - Z_{t+1}\|^2 + \lambda \cdot SIGReg(Z)

关键设计决策

设计	理由
BatchNorm 非 LayerNorm	LN 限制表示分布方差，阻碍 SIGReg 优化
AdaLN 零初始化	动作条件渐进式影响，避免剧烈改变预测器行为
Epps-Pulley 检验	基于特征函数的正态性检验，对厚尾、多峰敏感
无 stop-gradient	区别于 I-JEPA/V-JEPA，简化训练流程

对比定位

PLDM           DINO-WM        LeWM
 端到端 ✓        冻结编码器      端到端 ✓
 6 超参          预训练依赖      1 超参 ✓
 多损失拉扯      速度快但受限    单调收敛 ✓
 无防坍塌保证     无端到端学习    可证明防坍塌 ✓

实验结果

Push-T: 96.0%（PLDM 78%，提升 18%）
Reacher / TwoRoom: 与 SOTA 持平或更优
OGBench-Cube: 略逊 DINO-WM（后者受益于 DINOv2 1.24亿图像预训练）
规划速度: DINO-WM 的 48×（token 数减少 ~200×）
物理 probing: 潜在空间可线性 probe 出旋转量、位置等物理量
Surprise 评估: 可靠检测物理不合理轨迹（violation of expectation）

局限

短视界规划——自回归误差随步长累积
依赖离线数据集，简单场景 SIGReg 可能过度正则化
需显式动作标签
实验限于低维受控任务，未在开放世界验证

概念网络

[[leworldmodel|LeWorldModel]]
├── [[jepa|JEPA]]（架构基础）
├── [[sigreg|SIGReg]]（防坍塌核心）
├── [[pldm|PLDM]]（唯一端到端替代）
├── [[representation-collapse|表征坍缩]]
├── [[abstract-representation-space|抽象表征空间]]
├── [[world-model-lecun|LeCun 世界模型]]
└── [[objective-driven-ai|目标驱动AI]]

阅读路径

理解 JEPA 基础 → jepa
理解防坍塌机制 → sigreg, representation-collapse
对比替代方案 → pldm
宏观视角 → world-model-lecun, lecun-llm-boundary-future

3.5 KiB Raw Blame History Unescape Escape

LeWorldModel: Stable End-to-End JEPA from Pixels

一句话

核心贡献

技术要点

架构（15M 参数）

关键设计决策

对比定位

实验结果

局限

概念网络

阅读路径

3.5 KiB

Raw Blame History