---
title: "LeWorldModel: Stable End-to-End JEPA from Pixels"
created: 2026-06-08
updated: 2026-06-08
type: paper
tags: [world-model, JEPA, LeCun, SIGReg, end-to-end, planning]
sources: [https://arxiv.org/abs/2603.19312]
arxiv: "2603.19312v3"
venue: "Preprint, 2026"
---

# LeWorldModel: Stable End-to-End JEPA from Pixels

> **作者**: Lucas Maes*, Quentin Le Lidec*, Damien Scieur, Yann LeCun, Randall Balestriero
> **机构**: Mila/UdeM, NYU, Samsung SAIL, Brown University
> **完整摘要**: [raw/papers/maes-leworldmodel-2026.md](raw/papers/maes-leworldmodel-2026.md)

## 一句话

**首个无需 stop-gradient、EMA 或预训练编码器的端到端 JEPA 世界模型**——仅 2 个损失项 + 1 个超参，15M 参数单 GPU 数小时训练，规划速度比 DINO-WM 快 48×，Push-T 成功率 96%。

## 核心贡献

1. **消除训练启发式**：无 stop-gradient、无 EMA、无预训练编码器——纯粹从像素端到端训练
2. **极简训练目标**：预测损失 + [[sigreg|SIGReg]] 正则化，超参从 6 → 1
3. **速度与性能兼得**：规划速度 DINO-WM 的 48×，控制任务与 SOTA 持平或更优
4. **物理理解**：潜在空间编码有意义的物理量，可靠检测物理不合理事件（surprise evaluation）

## 技术要点

### 架构（15M 参数）
- **编码器**: ViT-Tiny (5M), BatchNorm 投影头——不用 LN 以免限制 SIGReg
- **预测器**: Transformer (10M), AdaLN 注入动作条件，时间因果掩码自回归
- **训练**: $\mathcal{L} = \|\hat{Z}_{t+1} - Z_{t+1}\|^2 + \lambda \cdot SIGReg(Z)$

### 关键设计决策
| 设计 | 理由 |
|------|------|
| BatchNorm 非 LayerNorm | LN 限制表示分布方差，阻碍 SIGReg 优化 |
| AdaLN 零初始化 | 动作条件渐进式影响，避免剧烈改变预测器行为 |
| Epps-Pulley 检验 | 基于特征函数的正态性检验，对厚尾、多峰敏感 |
| 无 stop-gradient | 区别于 I-JEPA/V-JEPA，简化训练流程 |

### 对比定位

```
PLDM           DINO-WM        LeWM
 端到端 ✓        冻结编码器      端到端 ✓
 6 超参          预训练依赖      1 超参 ✓
 多损失拉扯      速度快但受限    单调收敛 ✓
 无防坍塌保证     无端到端学习    可证明防坍塌 ✓
```

## 实验结果

- **Push-T**: 96.0%（PLDM 78%，提升 18%）
- **Reacher / TwoRoom**: 与 SOTA 持平或更优
- **OGBench-Cube**: 略逊 DINO-WM（后者受益于 DINOv2 1.24亿图像预训练）
- **规划速度**: DINO-WM 的 48×（token 数减少 ~200×）
- **物理 probing**: 潜在空间可线性 probe 出旋转量、位置等物理量
- **Surprise 评估**: 可靠检测物理不合理轨迹（violation of expectation）

## 局限

1. 短视界规划——自回归误差随步长累积
2. 依赖离线数据集，简单场景 SIGReg 可能过度正则化
3. 需显式动作标签
4. 实验限于低维受控任务，未在开放世界验证

## 概念网络

```
[[leworldmodel|LeWorldModel]]
├── [[jepa|JEPA]]（架构基础）
├── [[sigreg|SIGReg]]（防坍塌核心）
├── [[pldm|PLDM]]（唯一端到端替代）
├── [[representation-collapse|表征坍缩]]
├── [[abstract-representation-space|抽象表征空间]]
├── [[world-model-lecun|LeCun 世界模型]]
└── [[objective-driven-ai|目标驱动AI]]
```

## 阅读路径

- 理解 JEPA 基础 → [[jepa]]
- 理解防坍塌机制 → [[sigreg]], [[representation-collapse]]
- 对比替代方案 → [[pldm]]
- 宏观视角 → [[world-model-lecun]], [[lecun-llm-boundary-future]]