Files
myWiki/papers/tarpo.md

3.2 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization 2026-06-17 2026-06-17 paper
reasoning
reinforcement-learning
latent-reasoning
architecture
training
raw/papers/zhang-tarpo-2026.md
high

TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization

Liting Zhang, Shiwan Zhao, Xuyang Zhao, Zichen Xu, Jianye Wang, Qicheng Li — Nankai University, 2026 arXiv: 2606.05859 | Code: NKU-LITI/TARPO-master

核心问题

chain-of-thought 依赖于离散 token 生成,导致高维隐藏状态必须在每一步坍缩为单个 token——这构成了信息瓶颈。latent-reasoning 通过在连续空间中操作克服了这一限制,但连续表征的固有确定性又限制了 reinforcement-learning 中的策略探索。

TARPO 解决的核心矛盾:如何在保持 RL 探索随机性的同时利用连续表征的表达力?

方法论

TARPO 是一个纯 RL 框架,在每个 token 步自适应地在离散 token 生成hard和连续潜在推理soft之间切换

  1. action-head-router:一个轻量级线性投影层,将当前隐藏状态映射到二元的 {hard, soft} 决策空间
  2. action-routing-policy:将推理模式选择形式化为可学习的离散路由策略 ρ
  3. token-wise-routing:每一步独立决定下一个推理单元是离散 token embedding 还是连续 soft-token
  4. 联合优化LLM 骨干和路由器使用共享的 group-relative-policy-optimization 信号端到端训练

关键公式

路由策略参数化为 ρ_θ(·|h_t) = Softmax(W_r h_t + b_r),其中 W_r ∈ R^{2×d}

动作空间定义为 A = {soft} ({hard} × V),将路由选择和 token 采样统一在一个框架中。

总损失 L_TARPO = L_tok + λ L_act + β L_KL,同时优化 token 生成目标和路由策略目标。

关键发现

性能提升

  • 在 Qwen2.5 (1.5B/3B/7B) 上平均超越 grpo 0.52% Pass@1 和 1.22% Pass@32
  • 超越 hrpo 0.37% Pass@1 和 1.76% Pass@32
  • 跨架构泛化Llama-3.1-8B 上同样领先

OOD 泛化

  • HumanEval 上超越 GRPO 4.76%
  • 生成 token 数从 400+ 降至 337.9token 效率大幅提升

自适应路由行为

  • 路由器学会了在关键数学 token方程、运算符上分配更高 soft 概率
  • 在结构转换词("will", "now we need")上保持 hard 模式
  • 训练动态稳定,未出现 hrpo 在后期训练中的熵飙升

消融实验

  • w/ Pure Latent全 soft token→ Pass@32 从 82.80% 降至 54.07%(确定性限制探索)
  • w/ Entropy Routing固定启发式阈值→ 不如可学习的自适应路由

参考