SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.1 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

多步规划 (Multi-Step Planning)

2026-06-08

2026-06-08

concept

planning

search

world-model

LeCun

intelligence

raw/articles/lecun-llm-boundary-future-2026.md

多步规划 (Multi-Step Planning)

智能系统应具备的核心能力之一，LeCun 认为 LLM 缺失的第二大能力。在多种可能的行动路径之间搜索最优方案。

核心关系

搜索以预测为前提。

没有world-model-lecun告诉系统"走这条路会到哪里" → 搜索只能盲目试错
有预测能力后：推进一步→评估结果→调整方向→再推进 → "预测→评估→修正"闭环

为什么不能穷举搜索？

围棋 19×19 棋盘合法局面数约 $10^{170}$，超过宇宙原子总数。AlphaGo Zero 之所以成功，是因为训练出了价值网络——一个简化的世界模型，让搜索从漫无目的的穷举变成有方向的剪枝。

LLM vs 世界模型的搜索差异

维度	LLM (CoT/ToT)	世界模型 (JEPA)
搜索空间	语言空间（token序列）	状态空间（抽象表征）
比较对象	"哪段推理链读起来更合理"	"执行这个行动后现实状态会变成什么"
本质	换一种"说法"	换一种"走法"

语言空间的搜索和真实世界状态空间之间存在一道没有被填上的 gap——这是 LLM 搜索能力的根本瓶颈。

JEPA 中的多步规划

jepa 的搜索直接在世界模型构建的状态空间中进行：

Actor 提出候选行动
世界模型预测每个行动后的状态
成本模块评估距目标的远近
调整行动方案 → 滚动多步 → 真正的多步规划

不只是在"生成一段听起来合理的推理文字"。

局限

JEPA 能否在开放世界中完成可靠多步规划仍是开放问题——现实状态空间远比围棋复杂，没有明确规则和胜负信号。

来源