--- title: "奖励-最近度混合采样" created: 2026-05-12 updated: 2026-05-12 type: concept tags: ["reinforcement-learning", "sampling-strategy", "replay-buffer"] sources: ["arxiv:2503.18929"] --- # 奖励-最近度混合采样 **奖励-最近度混合采样** 是 [[tba|TBA]] 中从 [[replay-buffer-rl-llm|Global Replay Buffer]] 采样数据的核心策略,在**稳定性**(recency)和**探索**(reward)之间取得平衡。 ## 两种采样策略 ### 1. Recency 优先(概率 $m$) 采样最近同步步骤中添加的数据(最多 $2k-1$ 步 off-policy)→ **近似 on-policy**。 目的:保持训练稳定性,确保策略不会因过于陈旧的 off-policy 数据而剧烈震荡。 ### 2. 奖励优先(概率 $1-m$) 在奖励优先模式下,进一步混合两种分布: - **Softmax(reward)**:偏向高奖励轨迹 → **利用** - **Uniform**:等概率采样所有轨迹 → **探索** 目的:发现和强化高奖励行为模式,同时避免 mode collapse。 ## 参数 $m$ 的影响 | $m$ 值 | 行为 | 效果 | |--------|------|------| | $m=1$ | 纯 recency | 最稳定,但可能探索不足 | | $m=0.5$–$0.6$ | **推荐** | 平衡稳定性与探索 | | $m=0$ | 纯 reward | 可能 mode collapse | **实验发现**(PFT,Pythia 410M): - $m=0.4$: win rate 0.67(最低) - $m=0.5$: win rate 0.82(最佳) - $m=0.6$: win rate 0.80 ## 设计哲学 与标准 RL 的 $\epsilon$-greedy 不同,TBA 的混合采样直接在 **buffer 层面** 操作: - Recency 模式处理分布偏移(distribution shift) - Reward 模式处理信用分配(credit assignment) - 两者在 query 级别随机切换(同一 batch 中不同 query 可能使用不同策略) ## 相关概念 - [[tba|TBA]] — 框架实现 - [[replay-buffer-rl-llm]] — Buffer 设计 - [[off-policy-llm-post-training]] — Off-policy 范式 - [[bartoldson-tba-2025|论文页面]]