1.3 KiB
1.3 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Latent-Action Pretraining | 2026-06-24 | 2026-06-24 | concept |
|
|
Latent-Action Pretraining
Latent-Action Pretraining 是从无标注视频学习 VLA 策略的预训练范式:先学习视频中的表示和转移结构,再适配到下游控制任务。
标准流程
- 从视频数据学习 latent action 表示
- 将 latent action 对齐到真实动作空间
- 在控制数据上微调策略
当前方法的四类失败
VLA-JEPA 识别出四个系统性缺陷:
| 类型 | 原因 | 表现 |
|---|---|---|
| [[appearance-bias-vla | 外观偏见]] | 像素级目标 |
| 噪声运动 | 相机运动主导信号 | latent action 编码相机抖动 |
| [[information-leakage-vla | 信息泄漏]] | 未来作为输入 |
| 多阶段脆弱性 | 流水线复杂 | 阶段间不一致,工程负担重 |
VLA-JEPA 的修复
用 JEPA 范式替代像素预测:leakage-free state prediction + latent space alignment。