Files
myWiki/concepts/latent-world-model.md

1.2 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Latent World Model (Robotics) 2026-06-24 2026-06-24 concept
world-model
jepa
robot-learning
latent-representation
vla-jepa-2026

Latent World Model (Embodied)

Latent World Model 是 VLA-JEPA 中的世界模型组件,基于 JEPA 范式在 latent space 中建模状态转移动态。

架构

  • Target EncoderV-JEPA2frozen从未来帧产生 latent world state targets
  • PredictorAutoregressive Transformer (12 层, 8 注意力头, 2048-dim)
  • 注意力单时间步内双向K 个 latent action token + N 个 image latent token跨时间步因果

训练目标

\mathcal{L}_{WM} = \sum_{k=1}^{T} \mathbb{E}_{s_{t_k} \sim F(\cdot)} (\hat{s}_{t_k} - s_{t_k})

Target encoder F(·) 提供 ground-truth world statepredictor 学习预测。

可解释为 ELBO 最大化:

\log p(s_{1:T} | z_{0:T-1}) \geq \sum \mathbb{E}[\log p_\theta(\hat{s} | s)] - D_{KL}(F \| p_\theta^{WM})

与通用 World Model 的区别

不同于 Dreamer 等 pixel-space world modelLatent World Model 在语义空间运行,天然过滤像素噪声。

参考