20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/reward-recency-sampling.md
+++ b/concepts/reward-recency-sampling.md
@@ -0,0 +1,55 @@
+---
+title: "奖励-最近度混合采样"
+created: 2026-05-12
+updated: 2026-05-12
+type: concept
+tags: ["reinforcement-learning", "sampling-strategy", "replay-buffer"]
+sources: ["arxiv:2503.18929"]
+---
+
+# 奖励-最近度混合采样
+
+**奖励-最近度混合采样** 是 [[tba|TBA]] 中从 [[replay-buffer-rl-llm|Global Replay Buffer]] 采样数据的核心策略，在**稳定性**（recency）和**探索**（reward）之间取得平衡。
+
+## 两种采样策略
+
+### 1. Recency 优先（概率 $m$）
+
+采样最近同步步骤中添加的数据（最多 $2k-1$ 步 off-policy）→ **近似 on-policy**。
+
+目的：保持训练稳定性，确保策略不会因过于陈旧的 off-policy 数据而剧烈震荡。
+
+### 2. 奖励优先（概率 $1-m$）
+
+在奖励优先模式下，进一步混合两种分布：
+- **Softmax(reward)**：偏向高奖励轨迹 → **利用**
+- **Uniform**：等概率采样所有轨迹 → **探索**
+
+目的：发现和强化高奖励行为模式，同时避免 mode collapse。
+
+## 参数 $m$ 的影响
+
+| $m$ 值 | 行为 | 效果 |
+|--------|------|------|
+| $m=1$ | 纯 recency | 最稳定，但可能探索不足 |
+| $m=0.5$–$0.6$ | **推荐** | 平衡稳定性与探索 |
+| $m=0$ | 纯 reward | 可能 mode collapse |
+
+**实验发现**（PFT，Pythia 410M）：
+- $m=0.4$: win rate 0.67（最低）
+- $m=0.5$: win rate 0.82（最佳）
+- $m=0.6$: win rate 0.80
+
+## 设计哲学
+
+与标准 RL 的 $\epsilon$-greedy 不同，TBA 的混合采样直接在 **buffer 层面** 操作：
+- Recency 模式处理分布偏移（distribution shift）
+- Reward 模式处理信用分配（credit assignment）
+- 两者在 query 级别随机切换（同一 batch 中不同 query 可能使用不同策略）
+
+## 相关概念
+
+- [[tba|TBA]] — 框架实现
+- [[replay-buffer-rl-llm]] — Buffer 设计
+- [[off-policy-llm-post-training]] — Off-policy 范式
+- [[bartoldson-tba-2025|论文页面]]