20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,88 @@
---
title: "LeWorldModel: Stable End-to-End JEPA from Pixels"
created: 2026-06-08
updated: 2026-06-08
type: paper
tags: [world-model, JEPA, LeCun, SIGReg, end-to-end, planning]
sources: [https://arxiv.org/abs/2603.19312]
arxiv: "2603.19312v3"
venue: "Preprint, 2026"
---
# LeWorldModel: Stable End-to-End JEPA from Pixels
> **作者**: Lucas Maes*, Quentin Le Lidec*, Damien Scieur, Yann LeCun, Randall Balestriero
> **机构**: Mila/UdeM, NYU, Samsung SAIL, Brown University
> **完整摘要**: [raw/papers/maes-leworldmodel-2026.md](raw/papers/maes-leworldmodel-2026.md)
## 一句话
**首个无需 stop-gradient、EMA 或预训练编码器的端到端 JEPA 世界模型**——仅 2 个损失项 + 1 个超参15M 参数单 GPU 数小时训练,规划速度比 DINO-WM 快 48×Push-T 成功率 96%。
## 核心贡献
1. **消除训练启发式**:无 stop-gradient、无 EMA、无预训练编码器——纯粹从像素端到端训练
2. **极简训练目标**:预测损失 + [[sigreg|SIGReg]] 正则化,超参从 6 → 1
3. **速度与性能兼得**:规划速度 DINO-WM 的 48×控制任务与 SOTA 持平或更优
4. **物理理解**潜在空间编码有意义的物理量可靠检测物理不合理事件surprise evaluation
## 技术要点
### 架构15M 参数)
- **编码器**: ViT-Tiny (5M), BatchNorm 投影头——不用 LN 以免限制 SIGReg
- **预测器**: Transformer (10M), AdaLN 注入动作条件,时间因果掩码自回归
- **训练**: $\mathcal{L} = \|\hat{Z}_{t+1} - Z_{t+1}\|^2 + \lambda \cdot SIGReg(Z)$
### 关键设计决策
| 设计 | 理由 |
|------|------|
| BatchNorm 非 LayerNorm | LN 限制表示分布方差,阻碍 SIGReg 优化 |
| AdaLN 零初始化 | 动作条件渐进式影响,避免剧烈改变预测器行为 |
| Epps-Pulley 检验 | 基于特征函数的正态性检验,对厚尾、多峰敏感 |
| 无 stop-gradient | 区别于 I-JEPA/V-JEPA简化训练流程 |
### 对比定位
```
PLDM DINO-WM LeWM
端到端 ✓ 冻结编码器 端到端 ✓
6 超参 预训练依赖 1 超参 ✓
多损失拉扯 速度快但受限 单调收敛 ✓
无防坍塌保证 无端到端学习 可证明防坍塌 ✓
```
## 实验结果
- **Push-T**: 96.0%PLDM 78%,提升 18%
- **Reacher / TwoRoom**: 与 SOTA 持平或更优
- **OGBench-Cube**: 略逊 DINO-WM后者受益于 DINOv2 1.24亿图像预训练)
- **规划速度**: DINO-WM 的 48×token 数减少 ~200×
- **物理 probing**: 潜在空间可线性 probe 出旋转量、位置等物理量
- **Surprise 评估**: 可靠检测物理不合理轨迹violation of expectation
## 局限
1. 短视界规划——自回归误差随步长累积
2. 依赖离线数据集,简单场景 SIGReg 可能过度正则化
3. 需显式动作标签
4. 实验限于低维受控任务,未在开放世界验证
## 概念网络
```
[[leworldmodel|LeWorldModel]]
├── [[jepa|JEPA]](架构基础)
├── [[sigreg|SIGReg]](防坍塌核心)
├── [[pldm|PLDM]](唯一端到端替代)
├── [[representation-collapse|表征坍缩]]
├── [[abstract-representation-space|抽象表征空间]]
├── [[world-model-lecun|LeCun 世界模型]]
└── [[objective-driven-ai|目标驱动AI]]
```
## 阅读路径
- 理解 JEPA 基础 → [[jepa]]
- 理解防坍塌机制 → [[sigreg]], [[representation-collapse]]
- 对比替代方案 → [[pldm]]
- 宏观视角 → [[world-model-lecun]], [[lecun-llm-boundary-future]]