1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 动作头路由器 (Action Head Router) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
动作头路由器 (Action Head Router)
动作头路由器是 tarpo 框架中的轻量级路由决策模块——一个附加在 LLM 骨干上的线性投影层,用于在每一步决定推理模式。
结构
rho(h_t) = Softmax(W_r * h_t + b_r)
h_t ∈ R^d:Transformer 最后一层隐藏状态W_r ∈ R^{2×d}:将 d 维隐藏状态投影到 2 维(hard/soft 概率)b_r ∈ R^2:偏置项,初始化对训练有关键影响
这就是全文最 "lightweight" 的部分——仅 2d + 2 个参数。
初始化策略
偏置 b_0 的初始化影响模型对 hard/soft 的初始偏好:
b_0 = [2.2, 0]:偏向 hard → 保守起点,soft 比率随训练逐渐上升b_0 = [0.85, 0]:较均衡 → 早期就有较多 soft token- 默认采用轻度 hard 偏好,与模型的自然倾向一致
训练与推理
- 训练时:从
ρ_θ采样路由决策,鼓励结构探索 - 推理时:支持随机和确定性两种路由策略
与 LLM 骨干的关系
动作头是最小侵入性的——它不改变 Transformer 架构,仅读取最后一层隐藏状态作为输入。这种解耦设计使得:
- 可轻松适配不同规模的 LLM
- 路由决策和 token 生成使用共享的 advantage 信号联合优化
- 训练稳定,不会干扰骨干的预训练知识