Files
myWiki/reviews/vla-jepa-20260624.md

43 lines
2.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Review: VLA-JEPA"
created: 2026-06-24
updated: 2026-06-24
type: review
paper: "[[vla-jepa-2026]]"
---
# 📌 基本信息
- **论文标题**VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
- **作者**Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen†USTC/SJTU/Tsinghua 等)
- **领域**cs.RO / cs.CV机器人学习、JEPA、世界模型
- **arXiv ID**2602.10098v2 | 添加时间2026-06-24
- **代码**https://github.com/ginwind/VLA-JEPA/
# 🎯 核心概念
1. **Leakage-Free State Prediction** — 核心设计原则:未来帧仅作监督目标,永不作为模型输入。直接修复 latent-action 预训练中的信息泄漏问题
2. **Latent World Model** — JEPA 风格的 latent space 世界模型V-JEPA2 frozen target encoder + autoregressive Transformer predictor在语义空间预测状态转移
3. **Latent-Action Pretraining 的四类失败** — 外观偏见、噪声运动放大、信息泄漏、多阶段脆弱性
4. **JEPA for Robotics** — JEPA 从视频表示学习扩展到 embodied AI 的自然延伸latent space prediction 天然鲁棒于像素噪声
# 🔗 概念网络
**核心连接**
- Leakage-Free State Prediction ↔ Information Leakage问题 → 修复)
- Latent World Model ↔ JEPA架构 → 范式)
- Appearance Bias ↔ Latent-Action Pretraining失败模式 → 被修复范式)
- JEPA for Robotics ↔ World Model (LeCun)embodied 实例化 → 理论框架)
**复用已有概念**[[jepa]]、[[vla-vision-language-action]]、[[world-model-lecun]]、[[flow-matching]]
# 📚 Wiki 集成
- 新增页面9 个1 论文 + 7 概念 + 1 Review
- 复用已有概念4 个
- 总规模1177 → 1186 页
# 💡 关键洞察
1. **学对目标 > 学更多数据** — VLA-JEPA 用 villa-X 不到 1% 的训练数据超越了它。不是因为模型更大或数据更多而是因为学对了目标latent space state transition vs pixel variation。这与 sz 的 wiki 中 "Harness > SSM > Attention" 的优先级哲学一致:架构设计(消除信息泄漏)的杠杆远大于堆数据。
2. **JEPA 从感知到行动的跨越** — VLA-JEPA 证明了 JEPA 不仅适用于视频表示学习,在需要生成动作的 embodied AI 场景同样有效。关键在于 latent space prediction 对机器人特有的相机/光照扰动天然鲁棒——这不只是更好的表示学习,而是更适合 embodied 场景的架构选择。