Files
myWiki/papers/bartoldson-tba-2025.md

4.5 KiB
Raw Permalink Blame History

title, authors, year, arxiv, venue, type, created, tags, sources
title authors year arxiv venue type created tags sources
TBA: 异步轨迹平衡 — 解耦探索与学习以实现快速可扩展的 LLM 后训练
Brian Bartoldson
Siddarth Venkatraman
James Diffenderfer
Moksh Jain
Tal Ben-Nun
Seanie Lee
Minsu Kim
Johan Obando-Ceron
Yoshua Bengio
Bhavya Kailkhura
2025 2503.18929 NeurIPS 2025 paper 2026-05-12
reinforcement-learning
llm-post-training
gflownet
asynchronous-rl
https://arxiv.org/abs/2503.18929
https://github.com/bbartoldson/TBA

TBA: 异步轨迹平衡 — 解耦探索与学习

"Decoupling Exploration and Learning" — 用 GFlowNet 的 off-policy 目标实现 4×50× 训练加速。

核心问题

标准 on-policy RL 方法PPO、grpo、RLOO存在串行瓶颈数据生成和政策更新必须顺序进行GPU 利用率低。

异步 RL 可解耦两者,但 off-policy 数据会导致性能下降——现有方法Async DPO、Proximal RLOO在策略偏离增大时性能显著衰退。

TBA 框架

tbagflownet-fine-tuningtrajectory-balance-objective 目标集成到 asynchronous-rl-llm 框架中:

┌──────────────────────────────────────────┐
│  S EARCHER 节点 (N个)    T RAINER 节点   │
│  ┌─────────────┐        ┌─────────────┐  │
│  │ vLLM 推理   │──◇──▶ │ Replay      │  │
│  │ 本地策略πθ' │  轨迹  │ Buffer      │  │
│  │ 奖励评估    │        │ (D_global)  │  │
│  └─────────────┘        │    ↓        │  │
│       ↑ 每k步同步        │ TB Loss更新  │  │
│       └─────────────────┤ 策略权重    │  │
│                         └─────────────┘  │
└──────────────────────────────────────────┘

关键设计

1. Searcher-Trainer 解耦Searcher 持续生成响应不等待训练Trainer 持续训练(不等待生成),仅在每 k 步同步一次。

2. replay-buffer-rl-llm存储所有历史轨迹x, y, rTrainer 从中采样进行 off-policy 训练。

3. reward-recency-sampling:概率 m 采样最近recency数据 → 近似 on-policy概率 1m 采用奖励优先reward-prioritized采样 → 探索高奖励区域。

TB 目标公式

L_{TB}(y, x; \theta) = \left(\log \frac{Z(x)\pi_\theta(y|x)}{R(y; x)}\right)^2

其中 $R(y; x) = \pi_{ref}(y|x) \exp(\beta^{-1} r_\phi(y; x))$Z(x) 用 K-sample batch estimateVarGrad替代学习。

关键性质TB 是 off-policy 兼容 的——训练时 y 可从任意分布采样。

实验结果

数学推理 (GSM8K, RhoMath-1B)

方法 加速比 准确率
VinePPO ~53%
TBA 50× 55%

偏好微调 (TL;DR, Pythia 410M)

  • TBA 在 16 步 off-policy 设置下 超越 on-policy Online DPO
  • 定义新的 KL vs. Win-Rate Pareto 前沿

自动红队测试 (GPT-2, Llama 3.2 1B)

  • TBA 在 diversity-toxicity Pareto 前沿上达到 SOTA
  • 增加 Searcher 数量持续提升攻击成功率和多样性

大规模模型 (MATH, Qwen 2.5 7B)

  • TBA 在高度 off-policy 设置下10 步 stale显著优于 Dr. GRPO

概念网络

TBA 框架
├── 算法基础
│   ├── [[trajectory-balance-objective]]: Off-policy TB 目标
│   │   └── 源自 [[gflownet-fine-tuning|GFlowNet fine-tuning]]
│   └── KL 正则化 RL: π* ∝ π_ref · exp(r/β)
├── 系统架构
│   ├── [[asynchronous-rl-llm]]: 解耦探索与学习
│   ├── [[searcher-trainer-decoupling]]: Searcher ↔ Trainer
│   └── [[replay-buffer-rl-llm]]: Global replay buffer
├── 采样策略
│   └── [[reward-recency-sampling]]: 奖励 vs 最近度
└── 对比基线
    ├── [[grpo]]: On-policy 基线
    └── [[off-policy-llm-post-training]]: Off-policy RL 范式

论文信息

  • arXiv: 2503.18929
  • 代码: bbartoldson/TBA
  • 机构: LLNL × Mila × Université de Montréal × KAIST × CIFAR
  • 发表: NeurIPS 2025