Files
myWiki/concepts/vla-vision-language-action.md

2.6 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
VLA (Vision-Language-Action) 2026-06-08 2026-06-08 concept
embodied-AI
robotics
VLA
LeCun
raw/articles/lecun-llm-boundary-future-2026.md

VLA (Vision-Language-Action)

视觉-语言-动作模型将大语言模型的成功经验迁移到机器人控制的架构范式Vision + Language → Action。

LeCun 的判断

"VLA现在基本上被视为失败。不够可靠需要太多训练数据。"

2023 年 Google DeepMind RT-2 发布时,曾将具身智能商业化预期提前三年。但学术研究和工业实践反复验证了 VLA 的根本性局限。

失败的四个层面

1. 可靠性

  • VLATest (FSE 2025):对 7 个代表性 VLA 模型的模糊测试,结论"缺乏实际部署所需的鲁棒性"
  • LIBERO-Plus (2025):适度扰动相机视角/机器人初始状态可使成功率从 95% 骤降至 30% 以下
  • 致命发现VLA 模型"在相当程度上忽略了语言指令",更多依赖视觉线索做决策——本质在做视觉模式匹配,而非指令-动作因果关联

2. 数据成本

  • LLM 预训练数据有普遍迁移性VLA 模仿学习数据 没有迁移性
  • 每个新任务、新环境、新操作对象需重新收集演示数据
  • 扩展成本线性甚至超线性增长

3. 泛化

  • ICLR 2026 论文 From Seeing to Doing"仍然无法实现鲁棒的零样本性能"
  • 最佳模型零样本泛化仅 72%,远未达到工业部署要求
  • VLA 学到的本质是"条件反射式"行为映射,不是真正的泛化智能

4. 规划

  • 沿袭 LLM 的自回归逐 token 预测,无法进行显式多步规划
  • 只能问"下一个动作应该是什么",不能问"如果我这样做会怎样"

为什么产业界还在押注?

  1. 工程成熟度最高:直接继承 Transformer/大规模预训练/多模态对齐/指令微调/强VLM技术栈
  2. 许多任务不需要完整世界模型:仓库分拣、工厂装配等——环境固定、目标明确、动作空间有限
  3. 正在吸收世界模型思想:引入显式状态预测、层级规划、强化学习等融合方案

VLA 的适用边界

可工作:受控条件、有限任务集、充足演示数据(固定工位分拣、特定生产线)

走不通:通向通用机器智能的路径——泛化上限决定了只能分布内运行

LeCun 的批评语境是"AGI 核心路径走不通",而非"任何场景都无用"。

相关