Files
myWiki/papers/maes-leworldmodel-2026.md

3.5 KiB
Raw Blame History

title, created, updated, type, tags, sources, arxiv, venue
title created updated type tags sources arxiv venue
LeWorldModel: Stable End-to-End JEPA from Pixels 2026-06-08 2026-06-08 paper
world-model
JEPA
LeCun
SIGReg
end-to-end
planning
https://arxiv.org/abs/2603.19312
2603.19312v3 Preprint, 2026

LeWorldModel: Stable End-to-End JEPA from Pixels

作者: Lucas Maes*, Quentin Le Lidec*, Damien Scieur, Yann LeCun, Randall Balestriero 机构: Mila/UdeM, NYU, Samsung SAIL, Brown University 完整摘要: raw/papers/maes-leworldmodel-2026.md

一句话

首个无需 stop-gradient、EMA 或预训练编码器的端到端 JEPA 世界模型——仅 2 个损失项 + 1 个超参15M 参数单 GPU 数小时训练,规划速度比 DINO-WM 快 48×Push-T 成功率 96%。

核心贡献

  1. 消除训练启发式:无 stop-gradient、无 EMA、无预训练编码器——纯粹从像素端到端训练
  2. 极简训练目标:预测损失 + sigreg 正则化,超参从 6 → 1
  3. 速度与性能兼得:规划速度 DINO-WM 的 48×控制任务与 SOTA 持平或更优
  4. 物理理解潜在空间编码有意义的物理量可靠检测物理不合理事件surprise evaluation

技术要点

架构15M 参数)

  • 编码器: ViT-Tiny (5M), BatchNorm 投影头——不用 LN 以免限制 SIGReg
  • 预测器: Transformer (10M), AdaLN 注入动作条件,时间因果掩码自回归
  • 训练: \mathcal{L} = \|\hat{Z}_{t+1} - Z_{t+1}\|^2 + \lambda \cdot SIGReg(Z)

关键设计决策

设计 理由
BatchNorm 非 LayerNorm LN 限制表示分布方差,阻碍 SIGReg 优化
AdaLN 零初始化 动作条件渐进式影响,避免剧烈改变预测器行为
Epps-Pulley 检验 基于特征函数的正态性检验,对厚尾、多峰敏感
无 stop-gradient 区别于 I-JEPA/V-JEPA简化训练流程

对比定位

PLDM           DINO-WM        LeWM
 端到端 ✓        冻结编码器      端到端 ✓
 6 超参          预训练依赖      1 超参 ✓
 多损失拉扯      速度快但受限    单调收敛 ✓
 无防坍塌保证     无端到端学习    可证明防坍塌 ✓

实验结果

  • Push-T: 96.0%PLDM 78%,提升 18%
  • Reacher / TwoRoom: 与 SOTA 持平或更优
  • OGBench-Cube: 略逊 DINO-WM后者受益于 DINOv2 1.24亿图像预训练)
  • 规划速度: DINO-WM 的 48×token 数减少 ~200×
  • 物理 probing: 潜在空间可线性 probe 出旋转量、位置等物理量
  • Surprise 评估: 可靠检测物理不合理轨迹violation of expectation

局限

  1. 短视界规划——自回归误差随步长累积
  2. 依赖离线数据集,简单场景 SIGReg 可能过度正则化
  3. 需显式动作标签
  4. 实验限于低维受控任务,未在开放世界验证

概念网络

[[leworldmodel|LeWorldModel]]
├── [[jepa|JEPA]](架构基础)
├── [[sigreg|SIGReg]](防坍塌核心)
├── [[pldm|PLDM]](唯一端到端替代)
├── [[representation-collapse|表征坍缩]]
├── [[abstract-representation-space|抽象表征空间]]
├── [[world-model-lecun|LeCun 世界模型]]
└── [[objective-driven-ai|目标驱动AI]]

阅读路径