43 lines
1.6 KiB
Markdown
43 lines
1.6 KiB
Markdown
---
|
||
title: "COCONUT: 连续潜空间推理"
|
||
created: 2026-06-17
|
||
updated: 2026-06-17
|
||
type: concept
|
||
tags: [reasoning, latent-reasoning, architecture, training]
|
||
sources: [raw/papers/zhang-tarpo-2026.md]
|
||
confidence: high
|
||
---
|
||
|
||
# COCONUT: 连续潜空间推理
|
||
|
||
COCONUT(Hao et al., 2024)是**将 LLM 推理过程转移到连续潜空间的先驱工作**。
|
||
|
||
## 核心思想
|
||
|
||
传统的 [[chain-of-thought|思维链]] 在每一步都必须生成离散 token,但 Transformer 内部维护着高维隐藏状态——COCONUT 认为这种"隐藏 → token"的坍缩造成了信息损失。
|
||
|
||
## 方法
|
||
|
||
1. **直接馈入隐藏状态**:将 Transformer 最后一层的隐藏状态作为"thought token"直接输入到后续步骤
|
||
2. **并行路径探索**:连续空间允许在推理过程中保留多条可能路径的信息
|
||
3. **训练方式**:通过专门的训练目标使模型学会在潜空间中进行推理
|
||
|
||
## 与 TARPO 的关系
|
||
|
||
COCONUT 是**纯潜在推理**的代表,所有推理步骤都在连续空间中进行:
|
||
- COCONUT 证明了潜空间推理的可行性
|
||
- 但其天然确定性限制了 RL 中的策略探索
|
||
- [[tarpo|TARPO]] 在 COCONUT 的基础上引入自适应混合路由,在需要随机性时使用离散 token,在需要表达力时使用潜空间
|
||
|
||
## 限制
|
||
|
||
- 原始隐藏状态可能导致**表征流形不匹配**(与 token embedding 空间不一致)
|
||
- 缺乏 NLP 任务中自然出现的离散 token 级别的随机性
|
||
- 后续工作(如 [[hrpo|HRPO]])改用 embedding 混合而非原始隐藏状态
|
||
|
||
## 参考
|
||
|
||
- [[latent-reasoning|潜在推理]]
|
||
- [[tarpo|TARPO]]
|
||
- [[continuous-representation|连续表征]]
|