SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Token 级策略梯度 (Token-Level Policy Gradient)

2026-06-18

2026-06-18

concept

rl

grpo

training

optimization

gan-thinking-based-non-thinking-2026

Token 级策略梯度 (Token-Level Policy Gradient)

Token 级策略梯度是 GRPO（Shao et al., 2024）中使用的优化方法：在每个 token 级别而非序列级别计算重要性权重和优势估计（Gan et al., 2026）。

GRPO 的 Token 级损失

TNT 使用以下损失函数：

J(θ) = E[ (1/Σ|y^k|) × Σ_k Σ_t min(r_{i,t}(θ) × Â_{i,t}, clip(r_{i,t}(θ), 1-ε, 1+ε) × Â_{i,t}) ]

其中：

r_{i,t}(θ)：token 级重要性权重（新旧 token 概率比）
Â_{i,t}：token 级优势，由 TNT 的奖励函数估计
总损失按所有采样轨迹的 token 总数归一化

与序列级策略梯度的区别

	序列级	Token 级
粒度	整个序列一个奖励	每个 token 独立优势
信用分配	粗粒度	细粒度
适合场景	简单 RLHF	复杂推理（需细粒度信号）

在 TNT 中的角色

TNT 的奖励函数为每个 token 提供优势信号：

思考模式 token：+1（正确）或 0（错误）
非思考无 hacking token：+2（正确）或 -1（错误）
非思考有 hacking token：-2（所有 token）

Token 级梯度让模型能在 token 级学习何时产生/抑制 reward hacking 行为。

参考