87 lines
4.6 KiB
Markdown
87 lines
4.6 KiB
Markdown
---
|
||
title: "从LLM到世界模型:Yann LeCun的AI架构判断(Datawhale)"
|
||
source: https://mp.weixin.qq.com/s/Zau10ioTWzhj0KOImpasNg
|
||
authors: ["徐虎", "李盛康", "蒋银河", "黎又榛"]
|
||
organization: Datawhale
|
||
date: 2026-06
|
||
type: article
|
||
tags: [LLM, JEPA, world-model, VLA, objective-driven-AI, LeCun, representation-collapse, SIGReg, Tapestry]
|
||
---
|
||
|
||
# 从LLM到世界模型:Yann LeCun的AI架构判断
|
||
|
||
> Datawhale DIY-LLM 开源项目拓展篇,系统梳理 LeCun 对 LLM 未来方向的判断。
|
||
> 项目地址: https://github.com/datawhalechina/diy-llm
|
||
|
||
## 核心结论
|
||
|
||
1. **LLM不是终点,但不会消失** — 它会长期作为"语言与知识接口层"存在,是智能系统的"语言皮层",而非完整大脑。
|
||
2. **"下一词元预测 + 规模化"很难通向通用智能** — 核心缺口:预测行动后果的能力 + 基于搜索的多步规划。
|
||
3. **VLA在当前范式下已接近失败** — LeCun直接判断"VLA pretty much seen as a failure",核心原因是可靠性不足、数据依赖过重、泛化脆弱。
|
||
4. **世界模型的关键不是"画出世界",而是"在抽象表征空间预测可控后果"** — 水瓶类比精准揭示了像素级预测的无效性。
|
||
5. **JEPA的价值在于把学习目标从重建细节转向可预测的语义状态** — 成败关键在于防止表示坍缩,当前最有前景的路径是 SIGReg。
|
||
6. **LLM本质上不安全,且在当前范式下无法根本修复** — 目标驱动AI(Objective-Driven AI)才是安全可控智能体的正确架构。
|
||
7. **开源生态最终会赢得平台战争** — Tapestry 联邦训练机制是 LeCun 对主权AI问题的工程回应。
|
||
8. **未来更可能是双系统分工** — LLM负责语言与知识交互,世界模型负责理解物理世界与规划行动。
|
||
|
||
## 全文章节
|
||
|
||
### 一、为什么LLM不是终点?
|
||
- 1.1 有意义但不是正确的路线(洗车问题案例:LLM缺少物理约束建模)
|
||
- 1.2 LLM为什么会成功?(离散token + 可计算预测目标)
|
||
- 1.3 规模化或已触及天花板(高质量文本数据约300万亿Token,数据瓶颈2025-2030)
|
||
|
||
### 二、两个核心缺口
|
||
- 缺少预测行动后果的能力
|
||
- 缺少基于搜索的多步规划
|
||
- 这两个缺口不能通过"打补丁"(RAG、Tool Use、CoT等)修复
|
||
|
||
### 三、VLA:为什么这条路走不通
|
||
- VLA失败四个层面:可靠性、数据成本、泛化、规划
|
||
- 产业界仍押注VLA的三个现实原因
|
||
- VLA的适用边界(受控场景有效,无法成为通用机器人底座)
|
||
|
||
### 四、世界模型:核心概念与JEPA架构
|
||
- 4.1 世界模型定义:让智能体预测自身行动后果的事物
|
||
- 4.2 水瓶类比:为什么不能用像素级预测
|
||
- 4.3 生成式世界模型 vs JEPA:关键分叉
|
||
- 4.4 LeWorldModel:编码器(ViT-Tiny) + 预测器(Transformer) + SIGReg正则化
|
||
- 4.5 工业应用:世界模型的近期价值
|
||
|
||
### 五、表征坍缩:JEPA最难的技术问题
|
||
- 5.1 定义:模型找到"作弊解",所有输入映射为同一向量
|
||
- 5.2 三条路线:对比学习、蒸馏方法(BYOL/DINO)、显式正则化(VICReg→SIGReg)
|
||
- 5.3 SIGReg核心:Cramér-Wold定理 → 强制嵌入分布匹配各向同性高斯分布 N(0,I)
|
||
|
||
### 六、LLM的不安全性与目标驱动AI的出路
|
||
- LLM本质上不安全(无法阻止幻觉、无法预测行动后果)
|
||
- 目标驱动AI:通过优化找到最小化代价函数的行动序列,"从构造上无法违反"
|
||
- 事前规划 vs 事后约束
|
||
|
||
### 七、Tapestry与主权AI
|
||
- 信息食谱与认知主权问题
|
||
- Tapestry联邦训练:共享参数向量而非数据
|
||
- Sun Microsystems类比:开源终将胜出
|
||
|
||
### 八、多层分工的系统图景
|
||
- LLM层(语言与知识接口)→ 世界模型层(预测与规划)→ 目标驱动决策层
|
||
- 系统一(LLM/快速模式匹配) vs 系统二(世界模型/后果模拟)
|
||
- 范式转变预测:2027年初共识形成
|
||
|
||
## 关键引用
|
||
|
||
- "智能不是关于预测下一个token,而是关于预测行动的后果。"
|
||
- "大语言模型本质上是不安全的,因为它们无法预测其行动后果。"
|
||
- "当前形式的大语言模型无法变得可靠,因为无法阻止它们幻觉。"
|
||
- "VLA现在基本上被视为失败。"
|
||
- "目标驱动AI从构造上就无法违反安全约束。"
|
||
|
||
## 参考资料
|
||
|
||
- LeWorldModel Paper: https://arxiv.org/abs/2603.19312
|
||
- When Does LeJEPA Learn a World Model?: https://arxiv.org/abs/2605.26379
|
||
- LeJEPA: Provable and Scalable SSL: https://arxiv.org/pdf/2511.08544.pdf
|
||
- Project Tapestry: https://thealliance.ai/projects/tapestry
|
||
- VLATest: https://dl.acm.org/doi/10.1145/3729343
|
||
- LIBERO-Plus: https://arxiv.org/html/2510.13626v3
|