1.5 KiB
1.5 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Internal World Model | 2026-05-15 | 2026-05-15 | concept |
|
|
Internal World Model
内部世界模型 是 agent 在内部构建的环境表征,用于预测、规划和推理而不直接与环境交互。
经典定义 (Ha & Schmidhuber, 2018)
世界模型由三个组件构成:
- Vision (V):将观察压缩为潜在编码
- Memory (M):预测未来的潜在编码
- Controller (C):基于潜在编码选择动作
CTM 中的涌现世界模型
在 2D 迷宫任务中,CTM 没有位置编码,但必须输出从起点到终点的动作序列。这意味着:
- CTM 必须在内部构建空间表征("地图")
- 表征通过 neural-synchronization 自然形成
- 无需显式设计——从架构中涌现
证据
- CTM 训练于 39×39 迷宫,可泛化到 99×99(通过重复应用学到的策略)
- 模型可以在训练步数之外"继续探索"
- 注意力可视化显示模型有序追踪路径
与显式世界模型的对比
| 维度 | 显式世界模型 (Dreamer 等) | CTM 涌现世界模型 |
|---|---|---|
| 设计方式 | 明确分离 V/M/C 模块 | 同一架构中的涌现属性 |
| 表示形式 | 潜在向量快照 | 神经同步矩阵(时序) |
| 空间编码 | 通常使用位置编码 | 无位置编码,完全自建 |
来源
- darlow-ctm-2025
- Ha & Schmidhuber, "World Models", 2018