20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/hybrid-reasoning.md
+++ b/concepts/hybrid-reasoning.md
@@ -0,0 +1,48 @@
+---
+title: "混合推理 (Hybrid Reasoning)"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [reasoning, architecture, latent-reasoning]
+sources: [raw/papers/zhang-tarpo-2026.md]
+confidence: high
+---
+
+# 混合推理 (Hybrid Reasoning)
+
+混合推理（Latent-Explicit Hybrid Reasoning）将**离散 token 生成与连续潜在推理结合**在同一框架中，目的是同时保留离散 token 的采样随机性和连续表征的表达力。
+
+## 两条技术路线
+
+### 密集融合（Dense Integration）
+
+在每一个解码步骤中构造离散 token 和连续表征的**融合表示**：
+
+- **[[hrpo|HRPO]]**：通过可学习门控融合隐藏状态和 token embedding
+- **Multiplex Thinking**：聚合多个独立采样的 token 为单个连续 token
+
+### 模式切换（Mode Switching）
+
+在离散推理轨迹中**选择性切换**到潜在推理：
+
+- **熵路由**：基于 token 熵的固定启发式阈值触发切换
+- **监督初始化路由**：通过监督学习初始化切换时机
+- **[[tarpo|TARPO]]**：通过 RL 学习**自适应逐 token 路由**，无需启发式或监督信号
+
+## 核心挑战
+
+1. **切换时机**：何时从 hard 切换到 soft？过早浪费 token 效率优势，过晚无法利用连续表达力
+2. **探索困境**：连续表征的确定性限制了 RL 策略探索
+3. **训练稳定性**：混合训练可能导致分布偏移
+
+## TARPO 的突破
+
+[[tarpo|TARPO]] 首次实现了**纯 RL 驱动的 token 级自适应混合推理**——路由器在每一步自主决定推理模式，通过 shared advantage 信号与 LLM 骨干联合优化。
+
+## 参考
+
+- [[latent-reasoning|潜在推理]]
+- [[hrpo|HRPO]]
+- [[tarpo|TARPO]]
+- [[reparameterization-exploration|重参数化探索]]
+- [[token-wise-routing|逐token路由]]