Files
myWiki/papers/vla-jepa-2026.md

3.3 KiB
Raw Blame History

title, created, updated, type, tags, sources, code
title created updated type tags sources code
VLA-JEPA (Sun et al., 2026) 2026-06-24 2026-06-24 paper
vla
jepa
world-model
robot-learning
pretraining
latent-action
https://arxiv.org/abs/2602.10098
https://github.com/ginwind/VLA-JEPA/

VLA-JEPA

Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen† | arXiv:2602.10098 | cs.RO / cs.CV | Feb 2026

问题

vla-vision-language-actionlatent-action-pretraining 从互联网视频学习机器人策略是一个有吸引力的方向。但当前的 latent-action 目标存在系统性缺陷:锚定在像素变化而非动作相关的状态转移上。

四种失败模式:

模式 描述
[[appearance-bias-vla 外观偏见]]
噪声运动放大 相机运动和无关背景变化主导信号
[[information-leakage-vla 信息泄漏]]
多阶段复杂性 三阶段+流水线的工程脆弱性

核心方案:leakage-free-state-prediction

VLA-JEPA 将 jepa 范式引入 VLA在 latent space 预测而非 pixel space

架构

  • VLM BackboneQwen3-VL-2B输出 latent action tokens
  • latent-world-modelV-JEPA2 encoderfrozen target+ autoregressive Transformerpredictor
  • Action Headflow-matching

关键设计

Target Encoder (frozen, no grad)     Student (VLM backbone)
      ↓                                    ↓
  Future frames → latent targets       Current observation only
      ↓                                    ↓
              JEPA alignment loss
         (predict in latent space)

未来帧仅作监督目标,永不作为输入——消除信息泄漏捷径。

训练

  • 预训练Something-Something-v2220K 人类视频)+ Droid76K 机器人轨迹)
  • 微调LIBERO~2K 专家演示)/ Fractal + BridgeV2 / 100 真实演示
  • 8×A100Qwen3-VL-2B backbone

关键结果

LIBERO

Method Spatial Object Goal Long Avg
VLA-JEPA 96.2 99.6 99.6 97.2 98.2
π0.5 97.5 91.5 74.5 90.1 88.9
OpenVLA-OFT 97.6 97.9 94.5 96.8 96.7

SimplerEnv

Google Robot 平均最高WidowX 平均第二。使用 villa-X 不到 1% 的训练数据。

Robustness (LIBERO-Plus)

在 7 个扰动维度(光照/纹理/颜色/相机/…)下保持强劲性能。

核心洞察

  1. JEPA 的 embodied 应用 — 将 JEPA 从视频表示学习扩展到机器人动作策略,证明了 latent-space prediction 对 embodied AI 的通用价值
  2. 信息泄漏是根本问题 — 当前 latent-action 方法的失败根源不是模型容量不足,而是架构缺陷(未来信息泄漏)。修复架构比堆数据更有效
  3. 数据效率 — 用更少数据超越用更多数据的对比方法,证明学对目标比学更多数据更重要

来源

原始存档 | arXiv | GitHub