SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

动作头路由器 (Action Head Router)

2026-06-17

2026-06-17

concept

architecture

routing

reinforcement-learning

raw/papers/zhang-tarpo-2026.md

high

动作头路由器 (Action Head Router)

动作头路由器是 tarpo 框架中的轻量级路由决策模块——一个附加在 LLM 骨干上的线性投影层，用于在每一步决定推理模式。

结构

rho(h_t) = Softmax(W_r * h_t + b_r)

h_t ∈ R^d：Transformer 最后一层隐藏状态
W_r ∈ R^{2×d}：将 d 维隐藏状态投影到 2 维（hard/soft 概率）
b_r ∈ R^2：偏置项，初始化对训练有关键影响

这就是全文最 "lightweight" 的部分——仅 2d + 2 个参数。

初始化策略

偏置 b_0 的初始化影响模型对 hard/soft 的初始偏好：

b_0 = [2.2, 0]：偏向 hard → 保守起点，soft 比率随训练逐渐上升
b_0 = [0.85, 0]：较均衡 → 早期就有较多 soft token
默认采用轻度 hard 偏好，与模型的自然倾向一致

训练与推理

训练时：从 ρ_θ 采样路由决策，鼓励结构探索
推理时：支持随机和确定性两种路由策略

与 LLM 骨干的关系

动作头是最小侵入性的——它不改变 Transformer 架构，仅读取最后一层隐藏状态作为输入。这种解耦设计使得：

可轻松适配不同规模的 LLM
路由决策和 token 生成使用共享的 advantage 信号联合优化
训练稳定，不会干扰骨干的预训练知识

参考