Files
myWiki/concepts/latent-action-pretraining.md

1.3 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Latent-Action Pretraining 2026-06-24 2026-06-24 concept
vla
pretraining
robot-learning
latent-representation
vla-jepa-2026

Latent-Action Pretraining

Latent-Action Pretraining 是从无标注视频学习 VLA 策略的预训练范式:先学习视频中的表示和转移结构,再适配到下游控制任务。

标准流程

  1. 从视频数据学习 latent action 表示
  2. 将 latent action 对齐到真实动作空间
  3. 在控制数据上微调策略

当前方法的四类失败

VLA-JEPA 识别出四个系统性缺陷:

类型 原因 表现
[[appearance-bias-vla 外观偏见]] 像素级目标
噪声运动 相机运动主导信号 latent action 编码相机抖动
[[information-leakage-vla 信息泄漏]] 未来作为输入
多阶段脆弱性 流水线复杂 阶段间不一致,工程负担重

VLA-JEPA 的修复

用 JEPA 范式替代像素预测leakage-free state prediction + latent space alignment。

参考