逐 Token 路由 (Token-Wise Routing)

逐 token 路由是 tarpo 的核心机制：在每一个 token 生成步骤，模型自主决定下一个推理单元是 hard-token 还是 soft-token。

设计原则

与传统的固定步长或启发式切换不同，逐 token 路由的粒度是最细的——每一步都是决策点：

for t in 1..T:
    h_t = LLM(h_{t-1}, u_{t-1})
    d_t ~ rho(h_t)          # 采样路由决策：hard 或 soft
    if d_t == hard:
        v_t ~ pi(h_t)       # 从词表采样离散 token
        u_t = E(v_t)
    else:
        u_t = soft_mix(h_t) # 构造连续 latent

关键要素

路由策略

ρ_θ(d_t | h_t) — 一个轻量级分类器，从当前隐藏状态预测二元路由决策

动作空间

A = {soft} ∪ ({hard} × V) — 统一了路由选择和 token 采样

探索机制

通过从路由策略中采样而非取 argmax，保证了推理模式级别的探索

优势

细粒度控制：每步独立决策，而非预设固定模式
自适应：学习何时需要表达力（soft）vs 随机性（hard）
可学习：完全通过 RL 优化，无需启发式或监督信号

1.6 KiB Raw Blame History Unescape Escape