SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.1 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

VLA-JEPA (模型)

2026-06-24

2026-06-24

concept

vla

jepa

world-model

robot-learning

VLA-JEPA

VLA-JEPA 是将 JEPA 范式引入 Vision-Language-Action 模型的预训练框架。核心思想：通过 leakage-free state prediction 在 latent space 学习动作相关的动态抽象。

架构

VLM Backbone：Qwen3-VL-2B
Latent World Model：V-JEPA2 encoder (frozen target) + autoregressive Transformer predictor
Action Head：Conditional Flow-Matching

关键设计原则

Target encoder 从未来帧产生 latent target → 仅作监督目标
Student 仅见当前观察 → 消除信息泄漏
Latent space 预测（非 pixel space）→ 鲁棒于外观变化

训练流程

两阶段简化为：JEPA Pretraining → Action-Head Fine-tuning （vs 传统 latent-action 方法的多阶段流水线）

性能

LIBERO 平均 98.2%（SOTA），SimplerEnv 领先，数据效率远超对比方法。

参考