20260625:很多新内容
This commit is contained in:
42
reviews/vla-jepa-20260624.md
Normal file
42
reviews/vla-jepa-20260624.md
Normal file
@@ -0,0 +1,42 @@
|
||||
---
|
||||
title: "Review: VLA-JEPA"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: review
|
||||
paper: "[[vla-jepa-2026]]"
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
- **论文标题**:VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
|
||||
- **作者**:Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen†(USTC/SJTU/Tsinghua 等)
|
||||
- **领域**:cs.RO / cs.CV(机器人学习、JEPA、世界模型)
|
||||
- **arXiv ID**:2602.10098v2 | 添加时间:2026-06-24
|
||||
- **代码**:https://github.com/ginwind/VLA-JEPA/
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **Leakage-Free State Prediction** — 核心设计原则:未来帧仅作监督目标,永不作为模型输入。直接修复 latent-action 预训练中的信息泄漏问题
|
||||
2. **Latent World Model** — JEPA 风格的 latent space 世界模型:V-JEPA2 frozen target encoder + autoregressive Transformer predictor,在语义空间预测状态转移
|
||||
3. **Latent-Action Pretraining 的四类失败** — 外观偏见、噪声运动放大、信息泄漏、多阶段脆弱性
|
||||
4. **JEPA for Robotics** — JEPA 从视频表示学习扩展到 embodied AI 的自然延伸:latent space prediction 天然鲁棒于像素噪声
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
- Leakage-Free State Prediction ↔ Information Leakage(问题 → 修复)
|
||||
- Latent World Model ↔ JEPA(架构 → 范式)
|
||||
- Appearance Bias ↔ Latent-Action Pretraining(失败模式 → 被修复范式)
|
||||
- JEPA for Robotics ↔ World Model (LeCun)(embodied 实例化 → 理论框架)
|
||||
|
||||
**复用已有概念**:[[jepa]]、[[vla-vision-language-action]]、[[world-model-lecun]]、[[flow-matching]]
|
||||
|
||||
# 📚 Wiki 集成
|
||||
- 新增页面:9 个(1 论文 + 7 概念 + 1 Review)
|
||||
- 复用已有概念:4 个
|
||||
- 总规模:1177 → 1186 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **学对目标 > 学更多数据** — VLA-JEPA 用 villa-X 不到 1% 的训练数据超越了它。不是因为模型更大或数据更多,而是因为学对了目标(latent space state transition vs pixel variation)。这与 sz 的 wiki 中 "Harness > SSM > Attention" 的优先级哲学一致:架构设计(消除信息泄漏)的杠杆远大于堆数据。
|
||||
|
||||
2. **JEPA 从感知到行动的跨越** — VLA-JEPA 证明了 JEPA 不仅适用于视频表示学习,在需要生成动作的 embodied AI 场景同样有效。关键在于 latent space prediction 对机器人特有的相机/光照扰动天然鲁棒——这不只是更好的表示学习,而是更适合 embodied 场景的架构选择。
|
||||
Reference in New Issue
Block a user