Files
myWiki/concepts/multi-step-planning.md

55 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "多步规划 (Multi-Step Planning)"
created: 2026-06-08
updated: 2026-06-08
type: concept
tags: [planning, search, world-model, LeCun, intelligence]
sources: [raw/articles/lecun-llm-boundary-future-2026.md]
---
# 多步规划 (Multi-Step Planning)
智能系统应具备的核心能力之一LeCun 认为 LLM **缺失**的第二大能力。在多种可能的行动路径之间搜索最优方案。
## 核心关系
> **搜索以预测为前提。**
- 没有[[world-model-lecun|世界模型]]告诉系统"走这条路会到哪里" → 搜索只能盲目试错
- 有预测能力后:推进一步→评估结果→调整方向→再推进 → **"预测→评估→修正"闭环**
## 为什么不能穷举搜索?
围棋 19×19 棋盘合法局面数约 $10^{170}$超过宇宙原子总数。AlphaGo Zero 之所以成功,是因为训练出了**价值网络**——一个简化的世界模型,让搜索从漫无目的的穷举变成有方向的剪枝。
## LLM vs 世界模型的搜索差异
| 维度 | LLM (CoT/ToT) | 世界模型 (JEPA) |
|------|--------------|-----------------|
| 搜索空间 | **语言空间**token序列 | **状态空间**(抽象表征) |
| 比较对象 | "哪段推理链读起来更合理" | "执行这个行动后现实状态会变成什么" |
| 本质 | 换一种"说法" | 换一种"走法" |
语言空间的搜索和真实世界状态空间之间存在**一道没有被填上的 gap**——这是 LLM 搜索能力的根本瓶颈。
## JEPA 中的多步规划
[[jepa|JEPA]] 的搜索直接在世界模型构建的状态空间中进行:
1. Actor 提出候选行动
2. 世界模型预测每个行动后的状态
3. 成本模块评估距目标的远近
4. 调整行动方案 → 滚动多步 → 真正的多步规划
**不只是在"生成一段听起来合理的推理文字"。**
## 局限
JEPA 能否在开放世界中完成可靠多步规划仍是开放问题——现实状态空间远比围棋复杂,没有明确规则和胜负信号。
## 来源
- [[lecun-llm-boundary-future|原始文章]]
- [[action-consequence-prediction|预测行动后果]]
- [[jepa|JEPA]]
- [[world-model-lecun|LeCun 世界模型]]