20260617:目前有914 页
This commit is contained in:
48
concepts/hybrid-reasoning.md
Normal file
48
concepts/hybrid-reasoning.md
Normal file
@@ -0,0 +1,48 @@
|
||||
---
|
||||
title: "混合推理 (Hybrid Reasoning)"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [reasoning, architecture, latent-reasoning]
|
||||
sources: [raw/papers/zhang-tarpo-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 混合推理 (Hybrid Reasoning)
|
||||
|
||||
混合推理(Latent-Explicit Hybrid Reasoning)将**离散 token 生成与连续潜在推理结合**在同一框架中,目的是同时保留离散 token 的采样随机性和连续表征的表达力。
|
||||
|
||||
## 两条技术路线
|
||||
|
||||
### 密集融合(Dense Integration)
|
||||
|
||||
在每一个解码步骤中构造离散 token 和连续表征的**融合表示**:
|
||||
|
||||
- **[[hrpo|HRPO]]**:通过可学习门控融合隐藏状态和 token embedding
|
||||
- **Multiplex Thinking**:聚合多个独立采样的 token 为单个连续 token
|
||||
|
||||
### 模式切换(Mode Switching)
|
||||
|
||||
在离散推理轨迹中**选择性切换**到潜在推理:
|
||||
|
||||
- **熵路由**:基于 token 熵的固定启发式阈值触发切换
|
||||
- **监督初始化路由**:通过监督学习初始化切换时机
|
||||
- **[[tarpo|TARPO]]**:通过 RL 学习**自适应逐 token 路由**,无需启发式或监督信号
|
||||
|
||||
## 核心挑战
|
||||
|
||||
1. **切换时机**:何时从 hard 切换到 soft?过早浪费 token 效率优势,过晚无法利用连续表达力
|
||||
2. **探索困境**:连续表征的确定性限制了 RL 策略探索
|
||||
3. **训练稳定性**:混合训练可能导致分布偏移
|
||||
|
||||
## TARPO 的突破
|
||||
|
||||
[[tarpo|TARPO]] 首次实现了**纯 RL 驱动的 token 级自适应混合推理**——路由器在每一步自主决定推理模式,通过 shared advantage 信号与 LLM 骨干联合优化。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[latent-reasoning|潜在推理]]
|
||||
- [[hrpo|HRPO]]
|
||||
- [[tarpo|TARPO]]
|
||||
- [[reparameterization-exploration|重参数化探索]]
|
||||
- [[token-wise-routing|逐token路由]]
|
||||
Reference in New Issue
Block a user