1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 抽象表征空间 (Abstract Representation Space) | 2026-06-08 | 2026-06-08 | concept |
|
|
抽象表征空间 (Abstract Representation Space)
jepa 架构中执行预测和规划的核心空间。区别于像素空间、token 空间,是对世界状态的语义级压缩表征。
为什么必须在抽象空间?
信息论论证
- 像素空间:
H(pixel|context)极高——即便给定充分上下文,像素取值仍高度不确定 - 语义空间:
H(state|context)相对低且结构化——提供可靠预测的稳定着力点
维度对比
- 256×256 RGB 像素:196,608 维
- LeWorldModel 潜在表示:192 维(~1000× 压缩)
在抽象空间做预测,模型算力集中于因果结构,而非纹理、光照、阴影、水面折射等对决策无用的细节。
与 token 空间的区别
| 维度 | Token 空间 | 抽象表征空间 |
|---|---|---|
| 搜索方式 | 离散符号枚举 | 连续向量优化 |
| 物理世界适用性 | ❌ 行动空间连续高维不可枚举 | ✅ 不依赖离散符号可枚举性 |
| 规划性质 | "哪段话听起来合理" | "走这条路会到哪里" |
LeCun 的表述
"我在 JEPA 中谈的是,你不是在词元空间里做这件事,而是在抽象思维空间里做。"
认知科学对应
人类在想象"推水瓶"时,直觉物理工作在抽象的、去噪的、以物体为中心的表征层——你知道"瓶子会倒",但大脑不生成瓶身每个反光点的精确 RGB 值。JEPA 正是对这一生物直觉的工程模拟。