20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/multi-step-planning.md
+++ b/concepts/multi-step-planning.md
@@ -0,0 +1,54 @@
+---
+title: "多步规划 (Multi-Step Planning)"
+created: 2026-06-08
+updated: 2026-06-08
+type: concept
+tags: [planning, search, world-model, LeCun, intelligence]
+sources: [raw/articles/lecun-llm-boundary-future-2026.md]
+---
+
+# 多步规划 (Multi-Step Planning)
+
+智能系统应具备的核心能力之一，LeCun 认为 LLM **缺失**的第二大能力。在多种可能的行动路径之间搜索最优方案。
+
+## 核心关系
+
+> **搜索以预测为前提。**
+
+- 没有[[world-model-lecun|世界模型]]告诉系统"走这条路会到哪里" → 搜索只能盲目试错
+- 有预测能力后：推进一步→评估结果→调整方向→再推进 → **"预测→评估→修正"闭环**
+
+## 为什么不能穷举搜索？
+
+围棋 19×19 棋盘合法局面数约 $10^{170}$，超过宇宙原子总数。AlphaGo Zero 之所以成功，是因为训练出了**价值网络**——一个简化的世界模型，让搜索从漫无目的的穷举变成有方向的剪枝。
+
+## LLM vs 世界模型的搜索差异
+
+| 维度 | LLM (CoT/ToT) | 世界模型 (JEPA) |
+|------|--------------|-----------------|
+| 搜索空间 | **语言空间**（token序列） | **状态空间**（抽象表征） |
+| 比较对象 | "哪段推理链读起来更合理" | "执行这个行动后现实状态会变成什么" |
+| 本质 | 换一种"说法" | 换一种"走法" |
+
+语言空间的搜索和真实世界状态空间之间存在**一道没有被填上的 gap**——这是 LLM 搜索能力的根本瓶颈。
+
+## JEPA 中的多步规划
+
+[[jepa|JEPA]] 的搜索直接在世界模型构建的状态空间中进行：
+1. Actor 提出候选行动
+2. 世界模型预测每个行动后的状态
+3. 成本模块评估距目标的远近
+4. 调整行动方案 → 滚动多步 → 真正的多步规划
+
+**不只是在"生成一段听起来合理的推理文字"。**
+
+## 局限
+
+JEPA 能否在开放世界中完成可靠多步规划仍是开放问题——现实状态空间远比围棋复杂，没有明确规则和胜负信号。
+
+## 来源
+
+- [[lecun-llm-boundary-future|原始文章]]
+- [[action-consequence-prediction|预测行动后果]]
+- [[jepa|JEPA]]
+- [[world-model-lecun|LeCun 世界模型]]