--- title: "LeWorldModel: Stable End-to-End JEPA from Pixels" created: 2026-06-08 updated: 2026-06-08 type: paper tags: [world-model, JEPA, LeCun, SIGReg, end-to-end, planning] sources: [https://arxiv.org/abs/2603.19312] arxiv: "2603.19312v3" venue: "Preprint, 2026" --- # LeWorldModel: Stable End-to-End JEPA from Pixels > **作者**: Lucas Maes*, Quentin Le Lidec*, Damien Scieur, Yann LeCun, Randall Balestriero > **机构**: Mila/UdeM, NYU, Samsung SAIL, Brown University > **完整摘要**: [raw/papers/maes-leworldmodel-2026.md](raw/papers/maes-leworldmodel-2026.md) ## 一句话 **首个无需 stop-gradient、EMA 或预训练编码器的端到端 JEPA 世界模型**——仅 2 个损失项 + 1 个超参,15M 参数单 GPU 数小时训练,规划速度比 DINO-WM 快 48×,Push-T 成功率 96%。 ## 核心贡献 1. **消除训练启发式**:无 stop-gradient、无 EMA、无预训练编码器——纯粹从像素端到端训练 2. **极简训练目标**:预测损失 + [[sigreg|SIGReg]] 正则化,超参从 6 → 1 3. **速度与性能兼得**:规划速度 DINO-WM 的 48×,控制任务与 SOTA 持平或更优 4. **物理理解**:潜在空间编码有意义的物理量,可靠检测物理不合理事件(surprise evaluation) ## 技术要点 ### 架构(15M 参数) - **编码器**: ViT-Tiny (5M), BatchNorm 投影头——不用 LN 以免限制 SIGReg - **预测器**: Transformer (10M), AdaLN 注入动作条件,时间因果掩码自回归 - **训练**: $\mathcal{L} = \|\hat{Z}_{t+1} - Z_{t+1}\|^2 + \lambda \cdot SIGReg(Z)$ ### 关键设计决策 | 设计 | 理由 | |------|------| | BatchNorm 非 LayerNorm | LN 限制表示分布方差,阻碍 SIGReg 优化 | | AdaLN 零初始化 | 动作条件渐进式影响,避免剧烈改变预测器行为 | | Epps-Pulley 检验 | 基于特征函数的正态性检验,对厚尾、多峰敏感 | | 无 stop-gradient | 区别于 I-JEPA/V-JEPA,简化训练流程 | ### 对比定位 ``` PLDM DINO-WM LeWM 端到端 ✓ 冻结编码器 端到端 ✓ 6 超参 预训练依赖 1 超参 ✓ 多损失拉扯 速度快但受限 单调收敛 ✓ 无防坍塌保证 无端到端学习 可证明防坍塌 ✓ ``` ## 实验结果 - **Push-T**: 96.0%(PLDM 78%,提升 18%) - **Reacher / TwoRoom**: 与 SOTA 持平或更优 - **OGBench-Cube**: 略逊 DINO-WM(后者受益于 DINOv2 1.24亿图像预训练) - **规划速度**: DINO-WM 的 48×(token 数减少 ~200×) - **物理 probing**: 潜在空间可线性 probe 出旋转量、位置等物理量 - **Surprise 评估**: 可靠检测物理不合理轨迹(violation of expectation) ## 局限 1. 短视界规划——自回归误差随步长累积 2. 依赖离线数据集,简单场景 SIGReg 可能过度正则化 3. 需显式动作标签 4. 实验限于低维受控任务,未在开放世界验证 ## 概念网络 ``` [[leworldmodel|LeWorldModel]] ├── [[jepa|JEPA]](架构基础) ├── [[sigreg|SIGReg]](防坍塌核心) ├── [[pldm|PLDM]](唯一端到端替代) ├── [[representation-collapse|表征坍缩]] ├── [[abstract-representation-space|抽象表征空间]] ├── [[world-model-lecun|LeCun 世界模型]] └── [[objective-driven-ai|目标驱动AI]] ``` ## 阅读路径 - 理解 JEPA 基础 → [[jepa]] - 理解防坍塌机制 → [[sigreg]], [[representation-collapse]] - 对比替代方案 → [[pldm]] - 宏观视角 → [[world-model-lecun]], [[lecun-llm-boundary-future]]