SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

COCONUT: 连续潜空间推理

2026-06-17

2026-06-17

concept

reasoning

latent-reasoning

architecture

training

raw/papers/zhang-tarpo-2026.md

high

COCONUT: 连续潜空间推理

COCONUT（Hao et al., 2024）是将 LLM 推理过程转移到连续潜空间的先驱工作。

核心思想

传统的 chain-of-thought 在每一步都必须生成离散 token，但 Transformer 内部维护着高维隐藏状态——COCONUT 认为这种"隐藏 → token"的坍缩造成了信息损失。

方法

直接馈入隐藏状态：将 Transformer 最后一层的隐藏状态作为"thought token"直接输入到后续步骤
并行路径探索：连续空间允许在推理过程中保留多条可能路径的信息
训练方式：通过专门的训练目标使模型学会在潜空间中进行推理

与 TARPO 的关系

COCONUT 是纯潜在推理的代表，所有推理步骤都在连续空间中进行：

COCONUT 证明了潜空间推理的可行性
但其天然确定性限制了 RL 中的策略探索
tarpo 在 COCONUT 的基础上引入自适应混合路由，在需要随机性时使用离散 token，在需要表达力时使用潜空间

限制

原始隐藏状态可能导致表征流形不匹配（与 token embedding 空间不一致）
缺乏 NLP 任务中自然出现的离散 token 级别的随机性
后续工作（如 hrpo）改用 embedding 混合而非原始隐藏状态

参考