20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/papers/tarpo.md
+++ b/papers/tarpo.md
@@ -0,0 +1,67 @@
+---
+title: "TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization"
+created: 2026-06-17
+updated: 2026-06-17
+type: paper
+tags: [reasoning, reinforcement-learning, latent-reasoning, architecture, training]
+sources: [raw/papers/zhang-tarpo-2026.md]
+confidence: high
+---
+
+# TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization
+
+> Liting Zhang, Shiwan Zhao, Xuyang Zhao, Zichen Xu, Jianye Wang, Qicheng Li — Nankai University, 2026
+> arXiv: [2606.05859](https://arxiv.org/abs/2606.05859) | Code: [NKU-LITI/TARPO-master](https://github.com/NKU-LITI/TARPO-master)
+
+## 核心问题
+
+[[chain-of-thought|思维链（CoT）]] 依赖于离散 token 生成，导致高维隐藏状态必须在每一步坍缩为单个 token——这构成了信息瓶颈。[[latent-reasoning|潜在推理]] 通过在连续空间中操作克服了这一限制，但连续表征的固有确定性又限制了 [[reinforcement-learning|强化学习]] 中的策略探索。
+
+TARPO 解决的核心矛盾：**如何在保持 RL 探索随机性的同时利用连续表征的表达力？**
+
+## 方法论
+
+TARPO 是一个纯 RL 框架，在每个 token 步自适应地在离散 token 生成（hard）和连续潜在推理（soft）之间切换：
+
+1. **[[action-head-router|动作头路由器]]**：一个轻量级线性投影层，将当前隐藏状态映射到二元的 `{hard, soft}` 决策空间
+2. **[[action-routing-policy|动作路由策略]]**：将推理模式选择形式化为可学习的离散路由策略 ρ_θ
+3. **[[token-wise-routing|逐 token 路由]]**：每一步独立决定下一个推理单元是离散 token embedding 还是连续 [[soft-token]]
+4. **联合优化**：LLM 骨干和路由器使用共享的 [[group-relative-policy-optimization|Group Relative Advantage]] 信号端到端训练
+
+### 关键公式
+
+路由策略参数化为 `ρ_θ(·|h_t) = Softmax(W_r h_t + b_r)`，其中 `W_r ∈ R^{2×d}`。
+
+动作空间定义为 `A = {soft} ∪ ({hard} × V)`，将路由选择和 token 采样统一在一个框架中。
+
+总损失 `L_TARPO = L_tok + λ L_act + β L_KL`，同时优化 token 生成目标和路由策略目标。
+
+## 关键发现
+
+### 性能提升
+- 在 Qwen2.5 (1.5B/3B/7B) 上平均超越 [[grpo|GRPO]] 0.52% Pass@1 和 1.22% Pass@32
+- 超越 [[hrpo|HRPO]] 0.37% Pass@1 和 1.76% Pass@32
+- 跨架构泛化：Llama-3.1-8B 上同样领先
+
+### OOD 泛化
+- HumanEval 上超越 GRPO 4.76%
+- 生成 token 数从 400+ 降至 337.9，token 效率大幅提升
+
+### 自适应路由行为
+- 路由器学会了在关键数学 token（方程、运算符）上分配更高 soft 概率
+- 在结构转换词（"will", "now we need"）上保持 hard 模式
+- 训练动态稳定，未出现 [[hrpo|HRPO]] 在后期训练中的熵飙升
+
+### 消融实验
+- w/ Pure Latent（全 soft token）→ Pass@32 从 82.80% 降至 54.07%（确定性限制探索）
+- w/ Entropy Routing（固定启发式阈值）→ 不如可学习的自适应路由
+
+## 参考
+
+- [[latent-reasoning|潜在推理]]
+- [[continuous-representation|连续表征]]
+- [[hybrid-reasoning|混合推理]]
+- [[reparameterization-exploration|重参数化探索]]
+- [[gumbel-softmax|Gumbel-Softmax]]
+- [[coconut|COCONUT]]
+- 来源：[原始存档](raw/papers/zhang-tarpo-2026.md)