Files
myWiki/concepts/hybrid-reasoning.md

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
混合推理 (Hybrid Reasoning) 2026-06-17 2026-06-17 concept
reasoning
architecture
latent-reasoning
raw/papers/zhang-tarpo-2026.md
high

混合推理 (Hybrid Reasoning)

混合推理Latent-Explicit Hybrid Reasoning离散 token 生成与连续潜在推理结合在同一框架中,目的是同时保留离散 token 的采样随机性和连续表征的表达力。

两条技术路线

密集融合Dense Integration

在每一个解码步骤中构造离散 token 和连续表征的融合表示

  • hrpo:通过可学习门控融合隐藏状态和 token embedding
  • Multiplex Thinking:聚合多个独立采样的 token 为单个连续 token

模式切换Mode Switching

在离散推理轨迹中选择性切换到潜在推理:

  • 熵路由:基于 token 熵的固定启发式阈值触发切换
  • 监督初始化路由:通过监督学习初始化切换时机
  • tarpo:通过 RL 学习自适应逐 token 路由,无需启发式或监督信号

核心挑战

  1. 切换时机:何时从 hard 切换到 soft过早浪费 token 效率优势,过晚无法利用连续表达力
  2. 探索困境:连续表征的确定性限制了 RL 策略探索
  3. 训练稳定性:混合训练可能导致分布偏移

TARPO 的突破

tarpo 首次实现了纯 RL 驱动的 token 级自适应混合推理——路由器在每一步自主决定推理模式,通过 shared advantage 信号与 LLM 骨干联合优化。

参考