Files
myWiki/concepts/latent-thought-models.md

46 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "隐式思考模型 (Latent Thought Models)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [transformers, reasoning, continuous-thought, recurrence]
sources:
- mozer-topological-trouble-transformers-2026
---
# 隐式思考模型 (Latent Thought Models)
隐式思考模型(又称连续思考模型)是 Mozer et al. (2026) 分类法中**每循环步输入 token 数 < 1**的架构多个自回归步处理单个输入 token
## 对应 Mozer et al. 图 6
模型在处理下一个输入 token 之前将其隐式思考结果**反馈为自身的输入**进行多次自回归迭代
## 代表架构
| 模型 | 特点 |
|------|------|
| **COCONUT**Hao et al., 2025 | 连续潜在空间中的思维链 |
| **Hierarchical Reasoning**Jolicoeur-Martineau, 2025 | 层级推理模型 |
| **CYB**Galashov et al., 2025 | 连续潜在变量模型 |
## 与状态追踪的关系
并非所有隐式思考模型都能真正追踪状态
- 有些 CYB 的部分变体即使有多个自回归步状态更新仍是**不充分的**
- 关键在于**隐式空间的循环连接**是否确实实现了 `s_t = f(s_{t-1}, x_t)` 的任意状态传播
## 相对于显式 CoT 的优势
- **不消耗上下文窗口**不产生可见 token
- **潜在空间带宽更高**连续向量 > 离散 token
- 但仍需解决训练效率问题([[sequential-dependency|顺序依赖]]限制了并行化)
## 参考
- [[chain-of-thought|思维链]]
- [[latent-thought-models|隐式思考模型]]
- [[recurrence-taxonomy|循环分类法]]
- [[attractor-dynamics|吸引子动力学]]
- [[mozer-topological-trouble-transformers-2026]]