4.5 KiB
4.5 KiB
title, authors, year, arxiv, venue, type, created, tags, sources
| title | authors | year | arxiv | venue | type | created | tags | sources | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| TBA: 异步轨迹平衡 — 解耦探索与学习以实现快速可扩展的 LLM 后训练 |
|
2025 | 2503.18929 | NeurIPS 2025 | paper | 2026-05-12 |
|
|
TBA: 异步轨迹平衡 — 解耦探索与学习
"Decoupling Exploration and Learning" — 用 GFlowNet 的 off-policy 目标实现 4×–50× 训练加速。
核心问题
标准 on-policy RL 方法(PPO、grpo、RLOO)存在串行瓶颈:数据生成和政策更新必须顺序进行,GPU 利用率低。
异步 RL 可解耦两者,但 off-policy 数据会导致性能下降——现有方法(Async DPO、Proximal RLOO)在策略偏离增大时性能显著衰退。
TBA 框架
tba 将 gflownet-fine-tuning 的 trajectory-balance-objective 目标集成到 asynchronous-rl-llm 框架中:
┌──────────────────────────────────────────┐
│ S EARCHER 节点 (N个) T RAINER 节点 │
│ ┌─────────────┐ ┌─────────────┐ │
│ │ vLLM 推理 │──◇──▶ │ Replay │ │
│ │ 本地策略πθ' │ 轨迹 │ Buffer │ │
│ │ 奖励评估 │ │ (D_global) │ │
│ └─────────────┘ │ ↓ │ │
│ ↑ 每k步同步 │ TB Loss更新 │ │
│ └─────────────────┤ 策略权重 │ │
│ └─────────────┘ │
└──────────────────────────────────────────┘
关键设计
1. Searcher-Trainer 解耦:Searcher 持续生成响应(不等待训练),Trainer 持续训练(不等待生成),仅在每 k 步同步一次。
2. replay-buffer-rl-llm:存储所有历史轨迹(x, y, r),Trainer 从中采样进行 off-policy 训练。
3. reward-recency-sampling:概率 m 采样最近(recency)数据 → 近似 on-policy;概率 1−m 采用奖励优先(reward-prioritized)采样 → 探索高奖励区域。
TB 目标公式
L_{TB}(y, x; \theta) = \left(\log \frac{Z(x)\pi_\theta(y|x)}{R(y; x)}\right)^2
其中 $R(y; x) = \pi_{ref}(y|x) \exp(\beta^{-1} r_\phi(y; x))$,Z(x) 用 K-sample batch estimate(VarGrad)替代学习。
关键性质:TB 是 off-policy 兼容 的——训练时 y 可从任意分布采样。
实验结果
数学推理 (GSM8K, RhoMath-1B)
| 方法 | 加速比 | 准确率 |
|---|---|---|
| VinePPO | — | ~53% |
| TBA | 50× | 55% |
偏好微调 (TL;DR, Pythia 410M)
- TBA 在 16 步 off-policy 设置下 超越 on-policy Online DPO
- 定义新的 KL vs. Win-Rate Pareto 前沿
自动红队测试 (GPT-2, Llama 3.2 1B)
- TBA 在 diversity-toxicity Pareto 前沿上达到 SOTA
- 增加 Searcher 数量持续提升攻击成功率和多样性
大规模模型 (MATH, Qwen 2.5 7B)
- TBA′ 在高度 off-policy 设置下(10 步 stale)显著优于 Dr. GRPO
概念网络
TBA 框架
├── 算法基础
│ ├── [[trajectory-balance-objective]]: Off-policy TB 目标
│ │ └── 源自 [[gflownet-fine-tuning|GFlowNet fine-tuning]]
│ └── KL 正则化 RL: π* ∝ π_ref · exp(r/β)
├── 系统架构
│ ├── [[asynchronous-rl-llm]]: 解耦探索与学习
│ ├── [[searcher-trainer-decoupling]]: Searcher ↔ Trainer
│ └── [[replay-buffer-rl-llm]]: Global replay buffer
├── 采样策略
│ └── [[reward-recency-sampling]]: 奖励 vs 最近度
└── 对比基线
├── [[grpo]]: On-policy 基线
└── [[off-policy-llm-post-training]]: Off-policy RL 范式
论文信息
- arXiv: 2503.18929
- 代码: bbartoldson/TBA
- 机构: LLNL × Mila × Université de Montréal × KAIST × CIFAR
- 发表: NeurIPS 2025