1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| 奖励-最近度混合采样 | 2026-05-12 | 2026-05-12 | concept |
|
|
奖励-最近度混合采样
奖励-最近度混合采样 是 tba 中从 replay-buffer-rl-llm 采样数据的核心策略,在稳定性(recency)和探索(reward)之间取得平衡。
两种采样策略
1. Recency 优先(概率 $m$)
采样最近同步步骤中添加的数据(最多 2k-1 步 off-policy)→ 近似 on-policy。
目的:保持训练稳定性,确保策略不会因过于陈旧的 off-policy 数据而剧烈震荡。
2. 奖励优先(概率 $1-m$)
在奖励优先模式下,进一步混合两种分布:
- Softmax(reward):偏向高奖励轨迹 → 利用
- Uniform:等概率采样所有轨迹 → 探索
目的:发现和强化高奖励行为模式,同时避免 mode collapse。
参数 m 的影响
m 值 |
行为 | 效果 |
|---|---|---|
m=1 |
纯 recency | 最稳定,但可能探索不足 |
$m=0.5$–0.6 |
推荐 | 平衡稳定性与探索 |
m=0 |
纯 reward | 可能 mode collapse |
实验发现(PFT,Pythia 410M):
m=0.4: win rate 0.67(最低)m=0.5: win rate 0.82(最佳)m=0.6: win rate 0.80
设计哲学
与标准 RL 的 $\epsilon$-greedy 不同,TBA 的混合采样直接在 buffer 层面 操作:
- Recency 模式处理分布偏移(distribution shift)
- Reward 模式处理信用分配(credit assignment)
- 两者在 query 级别随机切换(同一 batch 中不同 query 可能使用不同策略)
相关概念
- tba — 框架实现
- replay-buffer-rl-llm — Buffer 设计
- off-policy-llm-post-training — Off-policy 范式
- bartoldson-tba-2025