Files
myWiki/reviews/vla-jepa-20260624.md

2.4 KiB
Raw Blame History

title, created, updated, type, paper
title created updated type paper
Review: VLA-JEPA 2026-06-24 2026-06-24 review vla-jepa-2026

📌 基本信息

  • 论文标题VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
  • 作者Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen†USTC/SJTU/Tsinghua 等)
  • 领域cs.RO / cs.CV机器人学习、JEPA、世界模型
  • arXiv ID2602.10098v2 | 添加时间2026-06-24
  • 代码https://github.com/ginwind/VLA-JEPA/

🎯 核心概念

  1. Leakage-Free State Prediction — 核心设计原则:未来帧仅作监督目标,永不作为模型输入。直接修复 latent-action 预训练中的信息泄漏问题
  2. Latent World Model — JEPA 风格的 latent space 世界模型V-JEPA2 frozen target encoder + autoregressive Transformer predictor在语义空间预测状态转移
  3. Latent-Action Pretraining 的四类失败 — 外观偏见、噪声运动放大、信息泄漏、多阶段脆弱性
  4. JEPA for Robotics — JEPA 从视频表示学习扩展到 embodied AI 的自然延伸latent space prediction 天然鲁棒于像素噪声

🔗 概念网络

核心连接

  • Leakage-Free State Prediction ↔ Information Leakage问题 → 修复)
  • Latent World Model ↔ JEPA架构 → 范式)
  • Appearance Bias ↔ Latent-Action Pretraining失败模式 → 被修复范式)
  • JEPA for Robotics ↔ World Model (LeCun)embodied 实例化 → 理论框架)

复用已有概念jepavla-vision-language-actionworld-model-lecunflow-matching

📚 Wiki 集成

  • 新增页面9 个1 论文 + 7 概念 + 1 Review
  • 复用已有概念4 个
  • 总规模1177 → 1186 页

💡 关键洞察

  1. 学对目标 > 学更多数据 — VLA-JEPA 用 villa-X 不到 1% 的训练数据超越了它。不是因为模型更大或数据更多而是因为学对了目标latent space state transition vs pixel variation。这与 sz 的 wiki 中 "Harness > SSM > Attention" 的优先级哲学一致:架构设计(消除信息泄漏)的杠杆远大于堆数据。

  2. JEPA 从感知到行动的跨越 — VLA-JEPA 证明了 JEPA 不仅适用于视频表示学习,在需要生成动作的 embodied AI 场景同样有效。关键在于 latent space prediction 对机器人特有的相机/光照扰动天然鲁棒——这不只是更好的表示学习,而是更适合 embodied 场景的架构选择。