1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 逐Token路由 (Token-Wise Routing) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
逐 Token 路由 (Token-Wise Routing)
逐 token 路由是 tarpo 的核心机制:在每一个 token 生成步骤,模型自主决定下一个推理单元是 hard-token 还是 soft-token。
设计原则
与传统的固定步长或启发式切换不同,逐 token 路由的粒度是最细的——每一步都是决策点:
for t in 1..T:
h_t = LLM(h_{t-1}, u_{t-1})
d_t ~ rho(h_t) # 采样路由决策:hard 或 soft
if d_t == hard:
v_t ~ pi(h_t) # 从词表采样离散 token
u_t = E(v_t)
else:
u_t = soft_mix(h_t) # 构造连续 latent
关键要素
路由策略
ρ_θ(d_t | h_t) — 一个轻量级分类器,从当前隐藏状态预测二元路由决策
动作空间
A = {soft} ∪ ({hard} × V) — 统一了路由选择和 token 采样
探索机制
通过从路由策略中采样而非取 argmax,保证了推理模式级别的探索
优势
- 细粒度控制:每步独立决策,而非预设固定模式
- 自适应:学习何时需要表达力(soft)vs 随机性(hard)
- 可学习:完全通过 RL 优化,无需启发式或监督信号