SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.3 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Latent-Action Pretraining

2026-06-24

2026-06-24

concept

vla

pretraining

robot-learning

latent-representation

Latent-Action Pretraining

Latent-Action Pretraining 是从无标注视频学习 VLA 策略的预训练范式：先学习视频中的表示和转移结构，再适配到下游控制任务。

标准流程

从视频数据学习 latent action 表示
将 latent action 对齐到真实动作空间
在控制数据上微调策略

当前方法的四类失败

VLA-JEPA 识别出四个系统性缺陷：

类型	原因	表现
[[appearance-bias-vla	外观偏见]]	像素级目标
噪声运动	相机运动主导信号	latent action 编码相机抖动
[[information-leakage-vla	信息泄漏]]	未来作为输入
多阶段脆弱性	流水线复杂	阶段间不一致，工程负担重

VLA-JEPA 的修复

用 JEPA 范式替代像素预测：leakage-free state prediction + latent space alignment。

参考