20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/coconut.md
+++ b/concepts/coconut.md
@@ -0,0 +1,42 @@
+---
+title: "COCONUT: 连续潜空间推理"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [reasoning, latent-reasoning, architecture, training]
+sources: [raw/papers/zhang-tarpo-2026.md]
+confidence: high
+---
+
+# COCONUT: 连续潜空间推理
+
+COCONUT（Hao et al., 2024）是**将 LLM 推理过程转移到连续潜空间的先驱工作**。
+
+## 核心思想
+
+传统的 [[chain-of-thought|思维链]] 在每一步都必须生成离散 token，但 Transformer 内部维护着高维隐藏状态——COCONUT 认为这种"隐藏 → token"的坍缩造成了信息损失。
+
+## 方法
+
+1. **直接馈入隐藏状态**：将 Transformer 最后一层的隐藏状态作为"thought token"直接输入到后续步骤
+2. **并行路径探索**：连续空间允许在推理过程中保留多条可能路径的信息
+3. **训练方式**：通过专门的训练目标使模型学会在潜空间中进行推理
+
+## 与 TARPO 的关系
+
+COCONUT 是**纯潜在推理**的代表，所有推理步骤都在连续空间中进行：
+- COCONUT 证明了潜空间推理的可行性
+- 但其天然确定性限制了 RL 中的策略探索
+- [[tarpo|TARPO]] 在 COCONUT 的基础上引入自适应混合路由，在需要随机性时使用离散 token，在需要表达力时使用潜空间
+
+## 限制
+
+- 原始隐藏状态可能导致**表征流形不匹配**（与 token embedding 空间不一致）
+- 缺乏 NLP 任务中自然出现的离散 token 级别的随机性
+- 后续工作（如 [[hrpo|HRPO]]）改用 embedding 混合而非原始隐藏状态
+
+## 参考
+
+- [[latent-reasoning|潜在推理]]
+- [[tarpo|TARPO]]
+- [[continuous-representation|连续表征]]