SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.9 KiB

Raw Permalink Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

奖励-最近度混合采样

2026-05-12

2026-05-12

concept

reinforcement-learning

sampling-strategy

replay-buffer

arxiv:2503.18929

奖励-最近度混合采样

奖励-最近度混合采样 是 tba 中从 replay-buffer-rl-llm 采样数据的核心策略，在稳定性（recency）和探索（reward）之间取得平衡。

两种采样策略

1. Recency 优先（概率 $m$）

采样最近同步步骤中添加的数据（最多 2k-1 步 off-policy）→ 近似 on-policy。

目的：保持训练稳定性，确保策略不会因过于陈旧的 off-policy 数据而剧烈震荡。

2. 奖励优先（概率 $1-m$）

在奖励优先模式下，进一步混合两种分布：

Softmax(reward)：偏向高奖励轨迹 → 利用
Uniform：等概率采样所有轨迹 → 探索

目的：发现和强化高奖励行为模式，同时避免 mode collapse。

参数 `m` 的影响

`m` 值	行为	效果
`m=1`	纯 recency	最稳定，但可能探索不足
$m=0.5$–`0.6`	推荐	平衡稳定性与探索
`m=0`	纯 reward	可能 mode collapse

实验发现（PFT，Pythia 410M）：

m=0.4: win rate 0.67（最低）
m=0.5: win rate 0.82（最佳）
m=0.6: win rate 0.80

设计哲学

与标准 RL 的 $\epsilon$-greedy 不同，TBA 的混合采样直接在 buffer 层面 操作：

Recency 模式处理分布偏移（distribution shift）
Reward 模式处理信用分配（credit assignment）
两者在 query 级别随机切换（同一 batch 中不同 query 可能使用不同策略）

相关概念

tba — 框架实现
replay-buffer-rl-llm — Buffer 设计
off-policy-llm-post-training — Off-policy 范式
bartoldson-tba-2025