Files
myWiki/concepts/hybrid-reasoning.md

49 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "混合推理 (Hybrid Reasoning)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [reasoning, architecture, latent-reasoning]
sources: [raw/papers/zhang-tarpo-2026.md]
confidence: high
---
# 混合推理 (Hybrid Reasoning)
混合推理Latent-Explicit Hybrid Reasoning将**离散 token 生成与连续潜在推理结合**在同一框架中,目的是同时保留离散 token 的采样随机性和连续表征的表达力。
## 两条技术路线
### 密集融合Dense Integration
在每一个解码步骤中构造离散 token 和连续表征的**融合表示**
- **[[hrpo|HRPO]]**:通过可学习门控融合隐藏状态和 token embedding
- **Multiplex Thinking**:聚合多个独立采样的 token 为单个连续 token
### 模式切换Mode Switching
在离散推理轨迹中**选择性切换**到潜在推理:
- **熵路由**:基于 token 熵的固定启发式阈值触发切换
- **监督初始化路由**:通过监督学习初始化切换时机
- **[[tarpo|TARPO]]**:通过 RL 学习**自适应逐 token 路由**,无需启发式或监督信号
## 核心挑战
1. **切换时机**:何时从 hard 切换到 soft过早浪费 token 效率优势,过晚无法利用连续表达力
2. **探索困境**:连续表征的确定性限制了 RL 策略探索
3. **训练稳定性**:混合训练可能导致分布偏移
## TARPO 的突破
[[tarpo|TARPO]] 首次实现了**纯 RL 驱动的 token 级自适应混合推理**——路由器在每一步自主决定推理模式,通过 shared advantage 信号与 LLM 骨干联合优化。
## 参考
- [[latent-reasoning|潜在推理]]
- [[hrpo|HRPO]]
- [[tarpo|TARPO]]
- [[reparameterization-exploration|重参数化探索]]
- [[token-wise-routing|逐token路由]]