SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

隐式思考模型 (Latent Thought Models)

2026-06-18

2026-06-18

concept

transformers

reasoning

continuous-thought

recurrence

mozer-topological-trouble-transformers-2026

隐式思考模型 (Latent Thought Models)

隐式思考模型（又称连续思考模型）是 Mozer et al. (2026) 分类法中每循环步输入 token 数 < 1的架构：多个自回归步处理单个输入 token。

对应 Mozer et al. 图 6

模型在处理下一个输入 token 之前，将其隐式思考结果反馈为自身的输入，进行多次自回归迭代。

代表架构

模型	特点
COCONUT（Hao et al., 2025）	连续潜在空间中的思维链
Hierarchical Reasoning（Jolicoeur-Martineau, 2025）	层级推理模型
CYB（Galashov et al., 2025）	连续潜在变量模型

与状态追踪的关系

并非所有隐式思考模型都能真正追踪状态：

有些（如 CYB 的部分变体）即使有多个自回归步，状态更新仍是不充分的
关键在于隐式空间的循环连接是否确实实现了 s_t = f(s_{t-1}, x_t) 的任意状态传播

相对于显式 CoT 的优势

不消耗上下文窗口（不产生可见 token）
潜在空间带宽更高（连续向量 > 离散 token）
但仍需解决训练效率问题（sequential-dependency限制了并行化）

参考