myWiki/concepts/action-head-router.md

---
title: "动作头路由器 (Action Head Router)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [architecture, routing, reinforcement-learning]
sources: [raw/papers/zhang-tarpo-2026.md]
confidence: high
---

# 动作头路由器 (Action Head Router)

动作头路由器是 [[tarpo|TARPO]] 框架中的**轻量级路由决策模块**——一个附加在 LLM 骨干上的线性投影层，用于在每一步决定推理模式。

## 结构

```
rho(h_t) = Softmax(W_r * h_t + b_r)
```

- `h_t ∈ R^d`：Transformer 最后一层隐藏状态
- `W_r ∈ R^{2×d}`：将 d 维隐藏状态投影到 2 维（hard/soft 概率）
- `b_r ∈ R^2`：偏置项，初始化对训练有关键影响

这就是全文最 "lightweight" 的部分——仅 `2d + 2` 个参数。

## 初始化策略

偏置 `b_0` 的初始化影响模型对 hard/soft 的初始偏好：

- `b_0 = [2.2, 0]`：偏向 hard → 保守起点，soft 比率随训练逐渐上升
- `b_0 = [0.85, 0]`：较均衡 → 早期就有较多 soft token
- 默认采用轻度 hard 偏好，与模型的自然倾向一致

## 训练与推理

- **训练时**：从 `ρ_θ` 采样路由决策，鼓励结构探索
- **推理时**：支持随机和确定性两种路由策略

## 与 LLM 骨干的关系

动作头是**最小侵入性**的——它不改变 Transformer 架构，仅读取最后一层隐藏状态作为输入。这种解耦设计使得：
1. 可轻松适配不同规模的 LLM
2. 路由决策和 token 生成使用共享的 advantage 信号联合优化
3. 训练稳定，不会干扰骨干的预训练知识

## 参考

- [[action-routing-policy|动作路由策略]]
- [[token-wise-routing|逐token路由]]
- [[tarpo|TARPO]]