20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/vla-vision-language-action.md
+++ b/concepts/vla-vision-language-action.md
@@ -0,0 +1,64 @@
+---
+title: "VLA (Vision-Language-Action)"
+created: 2026-06-08
+updated: 2026-06-08
+type: concept
+tags: [embodied-AI, robotics, VLA, LeCun]
+sources: [raw/articles/lecun-llm-boundary-future-2026.md]
+---
+
+# VLA (Vision-Language-Action)
+
+**视觉-语言-动作模型**，将大语言模型的成功经验迁移到机器人控制的架构范式：Vision + Language → Action。
+
+## LeCun 的判断
+
+> "VLA现在基本上被视为失败。不够可靠，需要太多训练数据。"
+
+2023 年 Google DeepMind RT-2 发布时，曾将具身智能商业化预期提前三年。但学术研究和工业实践反复验证了 VLA 的根本性局限。
+
+## 失败的四个层面
+
+### 1. 可靠性
+
+- **VLATest (FSE 2025)**：对 7 个代表性 VLA 模型的模糊测试，结论"缺乏实际部署所需的鲁棒性"
+- **LIBERO-Plus (2025)**：适度扰动相机视角/机器人初始状态可使成功率从 95% 骤降至 **30% 以下**
+- **致命发现**：VLA 模型"在相当程度上忽略了语言指令"，更多依赖视觉线索做决策——本质在做视觉模式匹配，而非指令-动作因果关联
+
+### 2. 数据成本
+
+- LLM 预训练数据有普遍迁移性；VLA 模仿学习数据 **没有迁移性**
+- 每个新任务、新环境、新操作对象需重新收集演示数据
+- 扩展成本线性甚至超线性增长
+
+### 3. 泛化
+
+- ICLR 2026 论文 *From Seeing to Doing*："仍然无法实现鲁棒的零样本性能"
+- 最佳模型零样本泛化仅 **72%**，远未达到工业部署要求
+- VLA 学到的本质是"**条件反射式**"行为映射，不是真正的泛化智能
+
+### 4. 规划
+
+- 沿袭 LLM 的自回归逐 token 预测，无法进行显式多步规划
+- 只能问"下一个动作应该是什么"，不能问"如果我这样做会怎样"
+
+## 为什么产业界还在押注？
+
+1. **工程成熟度最高**：直接继承 Transformer/大规模预训练/多模态对齐/指令微调/强VLM技术栈
+2. **许多任务不需要完整世界模型**：仓库分拣、工厂装配等——环境固定、目标明确、动作空间有限
+3. **正在吸收世界模型思想**：引入显式状态预测、层级规划、强化学习等融合方案
+
+## VLA 的适用边界
+
+✅ 可工作：受控条件、有限任务集、充足演示数据（固定工位分拣、特定生产线）
+
+❌ 走不通：通向通用机器智能的路径——泛化上限决定了只能分布内运行
+
+LeCun 的批评语境是"AGI 核心路径走不通"，而非"任何场景都无用"。
+
+## 相关
+
+- [[jepa|JEPA]] — 替代架构
+- [[world-model-lecun|LeCun 世界模型理论]]
+- [[objective-driven-ai|目标驱动AI]]
+- [[lecun-llm-boundary-future|原始文章]]