1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 隐式思考模型 (Latent Thought Models) | 2026-06-18 | 2026-06-18 | concept |
|
|
隐式思考模型 (Latent Thought Models)
隐式思考模型(又称连续思考模型)是 Mozer et al. (2026) 分类法中每循环步输入 token 数 < 1的架构:多个自回归步处理单个输入 token。
对应 Mozer et al. 图 6
模型在处理下一个输入 token 之前,将其隐式思考结果反馈为自身的输入,进行多次自回归迭代。
代表架构
| 模型 | 特点 |
|---|---|
| COCONUT(Hao et al., 2025) | 连续潜在空间中的思维链 |
| Hierarchical Reasoning(Jolicoeur-Martineau, 2025) | 层级推理模型 |
| CYB(Galashov et al., 2025) | 连续潜在变量模型 |
与状态追踪的关系
并非所有隐式思考模型都能真正追踪状态:
- 有些(如 CYB 的部分变体)即使有多个自回归步,状态更新仍是不充分的
- 关键在于隐式空间的循环连接是否确实实现了
s_t = f(s_{t-1}, x_t)的任意状态传播
相对于显式 CoT 的优势
- 不消耗上下文窗口(不产生可见 token)
- 潜在空间带宽更高(连续向量 > 离散 token)
- 但仍需解决训练效率问题(sequential-dependency限制了并行化)