Files
myWiki/papers/tarpo.md

68 lines
3.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization"
created: 2026-06-17
updated: 2026-06-17
type: paper
tags: [reasoning, reinforcement-learning, latent-reasoning, architecture, training]
sources: [raw/papers/zhang-tarpo-2026.md]
confidence: high
---
# TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization
> Liting Zhang, Shiwan Zhao, Xuyang Zhao, Zichen Xu, Jianye Wang, Qicheng Li — Nankai University, 2026
> arXiv: [2606.05859](https://arxiv.org/abs/2606.05859) | Code: [NKU-LITI/TARPO-master](https://github.com/NKU-LITI/TARPO-master)
## 核心问题
[[chain-of-thought|思维链CoT]] 依赖于离散 token 生成,导致高维隐藏状态必须在每一步坍缩为单个 token——这构成了信息瓶颈。[[latent-reasoning|潜在推理]] 通过在连续空间中操作克服了这一限制,但连续表征的固有确定性又限制了 [[reinforcement-learning|强化学习]] 中的策略探索。
TARPO 解决的核心矛盾:**如何在保持 RL 探索随机性的同时利用连续表征的表达力?**
## 方法论
TARPO 是一个纯 RL 框架,在每个 token 步自适应地在离散 token 生成hard和连续潜在推理soft之间切换
1. **[[action-head-router|动作头路由器]]**:一个轻量级线性投影层,将当前隐藏状态映射到二元的 `{hard, soft}` 决策空间
2. **[[action-routing-policy|动作路由策略]]**:将推理模式选择形式化为可学习的离散路由策略 ρ
3. **[[token-wise-routing|逐 token 路由]]**:每一步独立决定下一个推理单元是离散 token embedding 还是连续 [[soft-token]]
4. **联合优化**LLM 骨干和路由器使用共享的 [[group-relative-policy-optimization|Group Relative Advantage]] 信号端到端训练
### 关键公式
路由策略参数化为 `ρ_θ(·|h_t) = Softmax(W_r h_t + b_r)`,其中 `W_r ∈ R^{2×d}`
动作空间定义为 `A = {soft} ({hard} × V)`,将路由选择和 token 采样统一在一个框架中。
总损失 `L_TARPO = L_tok + λ L_act + β L_KL`,同时优化 token 生成目标和路由策略目标。
## 关键发现
### 性能提升
- 在 Qwen2.5 (1.5B/3B/7B) 上平均超越 [[grpo|GRPO]] 0.52% Pass@1 和 1.22% Pass@32
- 超越 [[hrpo|HRPO]] 0.37% Pass@1 和 1.76% Pass@32
- 跨架构泛化Llama-3.1-8B 上同样领先
### OOD 泛化
- HumanEval 上超越 GRPO 4.76%
- 生成 token 数从 400+ 降至 337.9token 效率大幅提升
### 自适应路由行为
- 路由器学会了在关键数学 token方程、运算符上分配更高 soft 概率
- 在结构转换词("will", "now we need")上保持 hard 模式
- 训练动态稳定,未出现 [[hrpo|HRPO]] 在后期训练中的熵飙升
### 消融实验
- w/ Pure Latent全 soft token→ Pass@32 从 82.80% 降至 54.07%(确定性限制探索)
- w/ Entropy Routing固定启发式阈值→ 不如可学习的自适应路由
## 参考
- [[latent-reasoning|潜在推理]]
- [[continuous-representation|连续表征]]
- [[hybrid-reasoning|混合推理]]
- [[reparameterization-exploration|重参数化探索]]
- [[gumbel-softmax|Gumbel-Softmax]]
- [[coconut|COCONUT]]
- 来源:[原始存档](raw/papers/zhang-tarpo-2026.md)