SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.8 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

潜在推理 (Latent Reasoning)

2026-06-17

2026-06-17

concept

reasoning

architecture

inference

raw/papers/zhang-tarpo-2026.md

high

潜在推理 (Latent Reasoning)

潜在推理是一种推理范式，将推理过程从离散 token 空间转移到连续表征空间，克服了传统 chain-of-thought 的信息瓶颈。

动机

在标准 CoT 中，高维 Transformer 隐藏状态必须在每一步坍缩为单个离散 token——这限制了推理的表达能力和信息容量。潜在推理直接在连续空间中操作这些隐藏状态，允许更丰富的推理轨迹。

核心机制

连续推理单元

潜在推理的推理步骤使用连续向量而非离散 token：

原始隐藏状态：直接将 Transformer 最后一层的隐藏状态馈入后续步骤（如 coconut）
概率加权嵌入混合：使用 top-k token 嵌入的 softmax 加权组合（如 soft-token）

推理模式

纯潜在推理（Pure Latent）：所有推理步骤都在潜空间中完成，不产生中间离散 token
混合推理（hybrid-reasoning）：在离散 token 生成和潜在推理之间动态切换

优势与挑战

优势：

更高的表达能力和信息容量
支持并行路径探索
Token 效率更高（推理压缩）

挑战：

表征流形不匹配：原始隐藏状态可能不在 token embedding 空间中
灾难性遗忘：长时间连续推理可能导致信息丢失
确定性困境：连续表征天然确定性，限制了 RL 策略探索——这是 tarpo 等混合方法的切入点

参考