Files
myWiki/concepts/coconut.md

43 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "COCONUT: 连续潜空间推理"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [reasoning, latent-reasoning, architecture, training]
sources: [raw/papers/zhang-tarpo-2026.md]
confidence: high
---
# COCONUT: 连续潜空间推理
COCONUTHao et al., 2024是**将 LLM 推理过程转移到连续潜空间的先驱工作**。
## 核心思想
传统的 [[chain-of-thought|思维链]] 在每一步都必须生成离散 token但 Transformer 内部维护着高维隐藏状态——COCONUT 认为这种"隐藏 → token"的坍缩造成了信息损失。
## 方法
1. **直接馈入隐藏状态**:将 Transformer 最后一层的隐藏状态作为"thought token"直接输入到后续步骤
2. **并行路径探索**:连续空间允许在推理过程中保留多条可能路径的信息
3. **训练方式**:通过专门的训练目标使模型学会在潜空间中进行推理
## 与 TARPO 的关系
COCONUT 是**纯潜在推理**的代表,所有推理步骤都在连续空间中进行:
- COCONUT 证明了潜空间推理的可行性
- 但其天然确定性限制了 RL 中的策略探索
- [[tarpo|TARPO]] 在 COCONUT 的基础上引入自适应混合路由,在需要随机性时使用离散 token在需要表达力时使用潜空间
## 限制
- 原始隐藏状态可能导致**表征流形不匹配**(与 token embedding 空间不一致)
- 缺乏 NLP 任务中自然出现的离散 token 级别的随机性
- 后续工作(如 [[hrpo|HRPO]])改用 embedding 混合而非原始隐藏状态
## 参考
- [[latent-reasoning|潜在推理]]
- [[tarpo|TARPO]]
- [[continuous-representation|连续表征]]