1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| COCONUT: 连续潜空间推理 | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
COCONUT: 连续潜空间推理
COCONUT(Hao et al., 2024)是将 LLM 推理过程转移到连续潜空间的先驱工作。
核心思想
传统的 chain-of-thought 在每一步都必须生成离散 token,但 Transformer 内部维护着高维隐藏状态——COCONUT 认为这种"隐藏 → token"的坍缩造成了信息损失。
方法
- 直接馈入隐藏状态:将 Transformer 最后一层的隐藏状态作为"thought token"直接输入到后续步骤
- 并行路径探索:连续空间允许在推理过程中保留多条可能路径的信息
- 训练方式:通过专门的训练目标使模型学会在潜空间中进行推理
与 TARPO 的关系
COCONUT 是纯潜在推理的代表,所有推理步骤都在连续空间中进行:
- COCONUT 证明了潜空间推理的可行性
- 但其天然确定性限制了 RL 中的策略探索
- tarpo 在 COCONUT 的基础上引入自适应混合路由,在需要随机性时使用离散 token,在需要表达力时使用潜空间
限制
- 原始隐藏状态可能导致表征流形不匹配(与 token embedding 空间不一致)
- 缺乏 NLP 任务中自然出现的离散 token 级别的随机性
- 后续工作(如 hrpo)改用 embedding 混合而非原始隐藏状态