--- title: "Token 级策略梯度 (Token-Level Policy Gradient)" created: 2026-06-18 updated: 2026-06-18 type: concept tags: [rl, grpo, training, optimization] sources: - gan-thinking-based-non-thinking-2026 --- # Token 级策略梯度 (Token-Level Policy Gradient) Token 级策略梯度是 GRPO(Shao et al., 2024)中使用的优化方法:在**每个 token 级别**而非序列级别计算重要性权重和优势估计(Gan et al., 2026)。 ## GRPO 的 Token 级损失 TNT 使用以下损失函数: ``` J(θ) = E[ (1/Σ|y^k|) × Σ_k Σ_t min(r_{i,t}(θ) × Â_{i,t}, clip(r_{i,t}(θ), 1-ε, 1+ε) × Â_{i,t}) ] ``` 其中: - `r_{i,t}(θ)`:token 级重要性权重(新旧 token 概率比) - `Â_{i,t}`:token 级优势,由 TNT 的奖励函数估计 - 总损失按所有采样轨迹的 token 总数归一化 ## 与序列级策略梯度的区别 | | 序列级 | Token 级 | |---|---|---| | 粒度 | 整个序列一个奖励 | 每个 token 独立优势 | | 信用分配 | 粗粒度 | 细粒度 | | 适合场景 | 简单 RLHF | 复杂推理(需细粒度信号) | ## 在 TNT 中的角色 TNT 的奖励函数为每个 token 提供优势信号: - 思考模式 token:+1(正确)或 0(错误) - 非思考无 hacking token:+2(正确)或 -1(错误) - 非思考有 hacking token:-2(所有 token) Token 级梯度让模型能**在 token 级**学习何时产生/抑制 reward hacking 行为。 ## 参考 - [[grpo|GRPO]] - [[reinforcement-learning|强化学习]] - [[reward-hacking|Reward Hacking]] - [[gan-thinking-based-non-thinking-2026|TNT 论文]]