20260617:目前有914 页
This commit is contained in:
88
papers/maes-leworldmodel-2026.md
Normal file
88
papers/maes-leworldmodel-2026.md
Normal file
@@ -0,0 +1,88 @@
|
||||
---
|
||||
title: "LeWorldModel: Stable End-to-End JEPA from Pixels"
|
||||
created: 2026-06-08
|
||||
updated: 2026-06-08
|
||||
type: paper
|
||||
tags: [world-model, JEPA, LeCun, SIGReg, end-to-end, planning]
|
||||
sources: [https://arxiv.org/abs/2603.19312]
|
||||
arxiv: "2603.19312v3"
|
||||
venue: "Preprint, 2026"
|
||||
---
|
||||
|
||||
# LeWorldModel: Stable End-to-End JEPA from Pixels
|
||||
|
||||
> **作者**: Lucas Maes*, Quentin Le Lidec*, Damien Scieur, Yann LeCun, Randall Balestriero
|
||||
> **机构**: Mila/UdeM, NYU, Samsung SAIL, Brown University
|
||||
> **完整摘要**: [raw/papers/maes-leworldmodel-2026.md](raw/papers/maes-leworldmodel-2026.md)
|
||||
|
||||
## 一句话
|
||||
|
||||
**首个无需 stop-gradient、EMA 或预训练编码器的端到端 JEPA 世界模型**——仅 2 个损失项 + 1 个超参,15M 参数单 GPU 数小时训练,规划速度比 DINO-WM 快 48×,Push-T 成功率 96%。
|
||||
|
||||
## 核心贡献
|
||||
|
||||
1. **消除训练启发式**:无 stop-gradient、无 EMA、无预训练编码器——纯粹从像素端到端训练
|
||||
2. **极简训练目标**:预测损失 + [[sigreg|SIGReg]] 正则化,超参从 6 → 1
|
||||
3. **速度与性能兼得**:规划速度 DINO-WM 的 48×,控制任务与 SOTA 持平或更优
|
||||
4. **物理理解**:潜在空间编码有意义的物理量,可靠检测物理不合理事件(surprise evaluation)
|
||||
|
||||
## 技术要点
|
||||
|
||||
### 架构(15M 参数)
|
||||
- **编码器**: ViT-Tiny (5M), BatchNorm 投影头——不用 LN 以免限制 SIGReg
|
||||
- **预测器**: Transformer (10M), AdaLN 注入动作条件,时间因果掩码自回归
|
||||
- **训练**: $\mathcal{L} = \|\hat{Z}_{t+1} - Z_{t+1}\|^2 + \lambda \cdot SIGReg(Z)$
|
||||
|
||||
### 关键设计决策
|
||||
| 设计 | 理由 |
|
||||
|------|------|
|
||||
| BatchNorm 非 LayerNorm | LN 限制表示分布方差,阻碍 SIGReg 优化 |
|
||||
| AdaLN 零初始化 | 动作条件渐进式影响,避免剧烈改变预测器行为 |
|
||||
| Epps-Pulley 检验 | 基于特征函数的正态性检验,对厚尾、多峰敏感 |
|
||||
| 无 stop-gradient | 区别于 I-JEPA/V-JEPA,简化训练流程 |
|
||||
|
||||
### 对比定位
|
||||
|
||||
```
|
||||
PLDM DINO-WM LeWM
|
||||
端到端 ✓ 冻结编码器 端到端 ✓
|
||||
6 超参 预训练依赖 1 超参 ✓
|
||||
多损失拉扯 速度快但受限 单调收敛 ✓
|
||||
无防坍塌保证 无端到端学习 可证明防坍塌 ✓
|
||||
```
|
||||
|
||||
## 实验结果
|
||||
|
||||
- **Push-T**: 96.0%(PLDM 78%,提升 18%)
|
||||
- **Reacher / TwoRoom**: 与 SOTA 持平或更优
|
||||
- **OGBench-Cube**: 略逊 DINO-WM(后者受益于 DINOv2 1.24亿图像预训练)
|
||||
- **规划速度**: DINO-WM 的 48×(token 数减少 ~200×)
|
||||
- **物理 probing**: 潜在空间可线性 probe 出旋转量、位置等物理量
|
||||
- **Surprise 评估**: 可靠检测物理不合理轨迹(violation of expectation)
|
||||
|
||||
## 局限
|
||||
|
||||
1. 短视界规划——自回归误差随步长累积
|
||||
2. 依赖离线数据集,简单场景 SIGReg 可能过度正则化
|
||||
3. 需显式动作标签
|
||||
4. 实验限于低维受控任务,未在开放世界验证
|
||||
|
||||
## 概念网络
|
||||
|
||||
```
|
||||
[[leworldmodel|LeWorldModel]]
|
||||
├── [[jepa|JEPA]](架构基础)
|
||||
├── [[sigreg|SIGReg]](防坍塌核心)
|
||||
├── [[pldm|PLDM]](唯一端到端替代)
|
||||
├── [[representation-collapse|表征坍缩]]
|
||||
├── [[abstract-representation-space|抽象表征空间]]
|
||||
├── [[world-model-lecun|LeCun 世界模型]]
|
||||
└── [[objective-driven-ai|目标驱动AI]]
|
||||
```
|
||||
|
||||
## 阅读路径
|
||||
|
||||
- 理解 JEPA 基础 → [[jepa]]
|
||||
- 理解防坍塌机制 → [[sigreg]], [[representation-collapse]]
|
||||
- 对比替代方案 → [[pldm]]
|
||||
- 宏观视角 → [[world-model-lecun]], [[lecun-llm-boundary-future]]
|
||||
Reference in New Issue
Block a user