异步强化学习与大语言模型后训练

异步 RL 将数据生成（探索）与策略更新（学习）解耦，使两者可以独立并行进行，大幅提升计算资源利用率。

串行瓶颈 (On-Policy)

标准 on-policy RL 流程：

生成 rollouts → 计算奖励 → 更新策略 → 生成 rollouts → ...
              ↑____________________________________↓
                   每次更新后重新生成（串行等待）

瓶颈在于：

Generation-bound：训练等待推理完成
Training-bound：推理等待训练完成

异步架构

Searcher 1 ────┐          ┌── Trainer
Searcher 2 ────┤ Replay   │   ↓
Searcher 3 ────┤ Buffer ──┤ TB Loss
    ...         │          │ Policy Update
Searcher N ────┘          └── ......
    ↑ 每k步同步权重           ↓
    └─────────────────────────┘

Searcher 和 Trainer 从不互相等待，仅在同步点交换权重和数据。

关键挑战

On-policy 算法（PPO、GRPO、RLOO）对 off-policyness 敏感：

Async DPO 在策略偏离增大时性能显著下降
Proximal RLOO 用 IS ratio clipping 缓解但仍然受限

TBA 的解决方案

tba 用 trajectory-balance-objective 替代 on-policy 目标——TB 天然 off-policy 兼容，使得 stale 数据（即使偏离当前策略很多步）仍然高效可用。

实验验证：TBA 即使在 15 步 off-policy 设置下，性能仍超越 on-policy Online DPO。

与分布式 RL 经典方法的关系

方法	年份	通信方式	LLM 适用性
A3C	2016	梯度	❌ 需要 value function
IMPALA	2018	轨迹 (s,a,r)	⚠️ V-trace 需要 V(s)
TBA	2025	轨迹 (x,y,r)	✅ TB 无需 critic

2.3 KiB Raw Blame History Unescape Escape