SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

混合推理 (Hybrid Reasoning)

2026-06-17

2026-06-17

concept

reasoning

architecture

latent-reasoning

raw/papers/zhang-tarpo-2026.md

high

混合推理 (Hybrid Reasoning)

混合推理（Latent-Explicit Hybrid Reasoning）将离散 token 生成与连续潜在推理结合在同一框架中，目的是同时保留离散 token 的采样随机性和连续表征的表达力。

两条技术路线

密集融合（Dense Integration）

在每一个解码步骤中构造离散 token 和连续表征的融合表示：

hrpo：通过可学习门控融合隐藏状态和 token embedding
Multiplex Thinking：聚合多个独立采样的 token 为单个连续 token

模式切换（Mode Switching）

在离散推理轨迹中选择性切换到潜在推理：

熵路由：基于 token 熵的固定启发式阈值触发切换
监督初始化路由：通过监督学习初始化切换时机
tarpo：通过 RL 学习自适应逐 token 路由，无需启发式或监督信号

核心挑战

切换时机：何时从 hard 切换到 soft？过早浪费 token 效率优势，过晚无法利用连续表达力
探索困境：连续表征的确定性限制了 RL 策略探索
训练稳定性：混合训练可能导致分布偏移

TARPO 的突破

tarpo 首次实现了纯 RL 驱动的 token 级自适应混合推理——路由器在每一步自主决定推理模式，通过 shared advantage 信号与 LLM 骨干联合优化。

参考