Files
myWiki/papers/maes-leworldmodel-2026.md

89 lines
3.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "LeWorldModel: Stable End-to-End JEPA from Pixels"
created: 2026-06-08
updated: 2026-06-08
type: paper
tags: [world-model, JEPA, LeCun, SIGReg, end-to-end, planning]
sources: [https://arxiv.org/abs/2603.19312]
arxiv: "2603.19312v3"
venue: "Preprint, 2026"
---
# LeWorldModel: Stable End-to-End JEPA from Pixels
> **作者**: Lucas Maes*, Quentin Le Lidec*, Damien Scieur, Yann LeCun, Randall Balestriero
> **机构**: Mila/UdeM, NYU, Samsung SAIL, Brown University
> **完整摘要**: [raw/papers/maes-leworldmodel-2026.md](raw/papers/maes-leworldmodel-2026.md)
## 一句话
**首个无需 stop-gradient、EMA 或预训练编码器的端到端 JEPA 世界模型**——仅 2 个损失项 + 1 个超参15M 参数单 GPU 数小时训练,规划速度比 DINO-WM 快 48×Push-T 成功率 96%。
## 核心贡献
1. **消除训练启发式**:无 stop-gradient、无 EMA、无预训练编码器——纯粹从像素端到端训练
2. **极简训练目标**:预测损失 + [[sigreg|SIGReg]] 正则化,超参从 6 → 1
3. **速度与性能兼得**:规划速度 DINO-WM 的 48×控制任务与 SOTA 持平或更优
4. **物理理解**潜在空间编码有意义的物理量可靠检测物理不合理事件surprise evaluation
## 技术要点
### 架构15M 参数)
- **编码器**: ViT-Tiny (5M), BatchNorm 投影头——不用 LN 以免限制 SIGReg
- **预测器**: Transformer (10M), AdaLN 注入动作条件,时间因果掩码自回归
- **训练**: $\mathcal{L} = \|\hat{Z}_{t+1} - Z_{t+1}\|^2 + \lambda \cdot SIGReg(Z)$
### 关键设计决策
| 设计 | 理由 |
|------|------|
| BatchNorm 非 LayerNorm | LN 限制表示分布方差,阻碍 SIGReg 优化 |
| AdaLN 零初始化 | 动作条件渐进式影响,避免剧烈改变预测器行为 |
| Epps-Pulley 检验 | 基于特征函数的正态性检验,对厚尾、多峰敏感 |
| 无 stop-gradient | 区别于 I-JEPA/V-JEPA简化训练流程 |
### 对比定位
```
PLDM DINO-WM LeWM
端到端 ✓ 冻结编码器 端到端 ✓
6 超参 预训练依赖 1 超参 ✓
多损失拉扯 速度快但受限 单调收敛 ✓
无防坍塌保证 无端到端学习 可证明防坍塌 ✓
```
## 实验结果
- **Push-T**: 96.0%PLDM 78%,提升 18%
- **Reacher / TwoRoom**: 与 SOTA 持平或更优
- **OGBench-Cube**: 略逊 DINO-WM后者受益于 DINOv2 1.24亿图像预训练)
- **规划速度**: DINO-WM 的 48×token 数减少 ~200×
- **物理 probing**: 潜在空间可线性 probe 出旋转量、位置等物理量
- **Surprise 评估**: 可靠检测物理不合理轨迹violation of expectation
## 局限
1. 短视界规划——自回归误差随步长累积
2. 依赖离线数据集,简单场景 SIGReg 可能过度正则化
3. 需显式动作标签
4. 实验限于低维受控任务,未在开放世界验证
## 概念网络
```
[[leworldmodel|LeWorldModel]]
├── [[jepa|JEPA]](架构基础)
├── [[sigreg|SIGReg]](防坍塌核心)
├── [[pldm|PLDM]](唯一端到端替代)
├── [[representation-collapse|表征坍缩]]
├── [[abstract-representation-space|抽象表征空间]]
├── [[world-model-lecun|LeCun 世界模型]]
└── [[objective-driven-ai|目标驱动AI]]
```
## 阅读路径
- 理解 JEPA 基础 → [[jepa]]
- 理解防坍塌机制 → [[sigreg]], [[representation-collapse]]
- 对比替代方案 → [[pldm]]
- 宏观视角 → [[world-model-lecun]], [[lecun-llm-boundary-future]]