VLA-JEPA

Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen† | arXiv:2602.10098 | cs.RO / cs.CV | Feb 2026

问题

vla-vision-language-action 的 latent-action-pretraining 从互联网视频学习机器人策略是一个有吸引力的方向。但当前的 latent-action 目标存在系统性缺陷：锚定在像素变化而非动作相关的状态转移上。

四种失败模式：

模式	描述
[[appearance-bias-vla	外观偏见]]
噪声运动放大	相机运动和无关背景变化主导信号
[[information-leakage-vla	信息泄漏]]
多阶段复杂性	三阶段+流水线的工程脆弱性

核心方案：leakage-free-state-prediction

VLA-JEPA 将 jepa 范式引入 VLA：在 latent space 预测而非 pixel space。

架构

VLM Backbone：Qwen3-VL-2B，输出 latent action tokens
latent-world-model：V-JEPA2 encoder（frozen target）+ autoregressive Transformer（predictor）
Action Head：flow-matching

关键设计

Target Encoder (frozen, no grad)     Student (VLM backbone)
      ↓                                    ↓
  Future frames → latent targets       Current observation only
      ↓                                    ↓
              JEPA alignment loss
         (predict in latent space)

未来帧仅作监督目标，永不作为输入——消除信息泄漏捷径。

训练

预训练：Something-Something-v2（220K 人类视频）+ Droid（76K 机器人轨迹）
微调：LIBERO（~2K 专家演示）/ Fractal + BridgeV2 / 100 真实演示
8×A100，Qwen3-VL-2B backbone

关键结果

LIBERO

Method	Spatial	Object	Goal	Long	Avg
VLA-JEPA	96.2	99.6	99.6	97.2	98.2
π0.5	97.5	91.5	74.5	90.1	88.9
OpenVLA-OFT	97.6	97.9	94.5	96.8	96.7

SimplerEnv

Google Robot 平均最高；WidowX 平均第二。使用 villa-X 不到 1% 的训练数据。

Robustness (LIBERO-Plus)

在 7 个扰动维度（光照/纹理/颜色/相机/…）下保持强劲性能。

核心洞察

JEPA 的 embodied 应用 — 将 JEPA 从视频表示学习扩展到机器人动作策略，证明了 latent-space prediction 对 embodied AI 的通用价值
信息泄漏是根本问题 — 当前 latent-action 方法的失败根源不是模型容量不足，而是架构缺陷（未来信息泄漏）。修复架构比堆数据更有效
数据效率 — 用更少数据超越用更多数据的对比方法，证明学对目标比学更多数据更重要

来源

原始存档 | arXiv | GitHub

3.3 KiB Raw Blame History Unescape Escape