Files
myWiki/concepts/vla-vision-language-action.md

65 lines
2.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "VLA (Vision-Language-Action)"
created: 2026-06-08
updated: 2026-06-08
type: concept
tags: [embodied-AI, robotics, VLA, LeCun]
sources: [raw/articles/lecun-llm-boundary-future-2026.md]
---
# VLA (Vision-Language-Action)
**视觉-语言-动作模型**将大语言模型的成功经验迁移到机器人控制的架构范式Vision + Language → Action。
## LeCun 的判断
> "VLA现在基本上被视为失败。不够可靠需要太多训练数据。"
2023 年 Google DeepMind RT-2 发布时,曾将具身智能商业化预期提前三年。但学术研究和工业实践反复验证了 VLA 的根本性局限。
## 失败的四个层面
### 1. 可靠性
- **VLATest (FSE 2025)**:对 7 个代表性 VLA 模型的模糊测试,结论"缺乏实际部署所需的鲁棒性"
- **LIBERO-Plus (2025)**:适度扰动相机视角/机器人初始状态可使成功率从 95% 骤降至 **30% 以下**
- **致命发现**VLA 模型"在相当程度上忽略了语言指令",更多依赖视觉线索做决策——本质在做视觉模式匹配,而非指令-动作因果关联
### 2. 数据成本
- LLM 预训练数据有普遍迁移性VLA 模仿学习数据 **没有迁移性**
- 每个新任务、新环境、新操作对象需重新收集演示数据
- 扩展成本线性甚至超线性增长
### 3. 泛化
- ICLR 2026 论文 *From Seeing to Doing*"仍然无法实现鲁棒的零样本性能"
- 最佳模型零样本泛化仅 **72%**,远未达到工业部署要求
- VLA 学到的本质是"**条件反射式**"行为映射,不是真正的泛化智能
### 4. 规划
- 沿袭 LLM 的自回归逐 token 预测,无法进行显式多步规划
- 只能问"下一个动作应该是什么",不能问"如果我这样做会怎样"
## 为什么产业界还在押注?
1. **工程成熟度最高**:直接继承 Transformer/大规模预训练/多模态对齐/指令微调/强VLM技术栈
2. **许多任务不需要完整世界模型**:仓库分拣、工厂装配等——环境固定、目标明确、动作空间有限
3. **正在吸收世界模型思想**:引入显式状态预测、层级规划、强化学习等融合方案
## VLA 的适用边界
✅ 可工作:受控条件、有限任务集、充足演示数据(固定工位分拣、特定生产线)
❌ 走不通:通向通用机器智能的路径——泛化上限决定了只能分布内运行
LeCun 的批评语境是"AGI 核心路径走不通",而非"任何场景都无用"。
## 相关
- [[jepa|JEPA]] — 替代架构
- [[world-model-lecun|LeCun 世界模型理论]]
- [[objective-driven-ai|目标驱动AI]]
- [[lecun-llm-boundary-future|原始文章]]