---
title: "TBA: 异步轨迹平衡 — 解耦探索与学习以实现快速可扩展的 LLM 后训练"
authors: ["Brian Bartoldson", "Siddarth Venkatraman", "James Diffenderfer", "Moksh Jain", "Tal Ben-Nun", "Seanie Lee", "Minsu Kim", "Johan Obando-Ceron", "Yoshua Bengio", "Bhavya Kailkhura"]
year: 2025
arxiv: "2503.18929"
venue: "NeurIPS 2025"
type: "paper"
created: 2026-05-12
tags: ["reinforcement-learning", "llm-post-training", "gflownet", "asynchronous-rl"]
sources: ["https://arxiv.org/abs/2503.18929", "https://github.com/bbartoldson/TBA"]
---

# TBA: 异步轨迹平衡 — 解耦探索与学习

> **"Decoupling Exploration and Learning"** — 用 GFlowNet 的 off-policy 目标实现 4×–50× 训练加速。

## 核心问题

标准 on-policy RL 方法（PPO、[[grpo|GRPO]]、RLOO）存在**串行瓶颈**：数据生成和政策更新必须顺序进行，GPU 利用率低。

异步 RL 可解耦两者，但 off-policy 数据会导致性能下降——现有方法（Async DPO、Proximal RLOO）在策略偏离增大时性能显著衰退。

## TBA 框架

[[tba|TBA]] 将 [[gflownet-fine-tuning|GFlowNet]] 的 [[trajectory-balance-objective|Trajectory Balance (TB)]] 目标集成到 [[asynchronous-rl-llm|异步分布式 RL]] 框架中：

```
┌──────────────────────────────────────────┐
│  S EARCHER 节点 (N个)    T RAINER 节点   │
│  ┌─────────────┐        ┌─────────────┐  │
│  │ vLLM 推理   │──◇──▶ │ Replay      │  │
│  │ 本地策略πθ' │  轨迹  │ Buffer      │  │
│  │ 奖励评估    │        │ (D_global)  │  │
│  └─────────────┘        │    ↓        │  │
│       ↑ 每k步同步        │ TB Loss更新  │  │
│       └─────────────────┤ 策略权重    │  │
│                         └─────────────┘  │
└──────────────────────────────────────────┘
```

### 关键设计

**1. Searcher-Trainer 解耦**：Searcher 持续生成响应（不等待训练），Trainer 持续训练（不等待生成），仅在每 k 步同步一次。

**2. [[replay-buffer-rl-llm|Global Replay Buffer]]**：存储所有历史轨迹（x, y, r），Trainer 从中采样进行 off-policy 训练。

**3. [[reward-recency-sampling|双重采样策略]]**：概率 m 采样最近（recency）数据 → 近似 on-policy；概率 1−m 采用奖励优先（reward-prioritized）采样 → 探索高奖励区域。

### TB 目标公式

$$L_{TB}(y, x; \theta) = \left(\log \frac{Z(x)\pi_\theta(y|x)}{R(y; x)}\right)^2$$

其中 $R(y; x) = \pi_{ref}(y|x) \exp(\beta^{-1} r_\phi(y; x))$，$Z(x)$ 用 K-sample batch estimate（VarGrad）替代学习。

**关键性质**：TB 是 **off-policy 兼容** 的——训练时 $y$ 可从任意分布采样。

## 实验结果

### 数学推理 (GSM8K, RhoMath-1B)
| 方法 | 加速比 | 准确率 |
|------|--------|--------|
| VinePPO | — | ~53% |
| TBA | **50×** | **55%** |

### 偏好微调 (TL;DR, Pythia 410M)
- TBA 在 16 步 off-policy 设置下 **超越 on-policy Online DPO**
- 定义新的 KL vs. Win-Rate **Pareto 前沿**

### 自动红队测试 (GPT-2, Llama 3.2 1B)
- TBA 在 diversity-toxicity Pareto 前沿上达到 SOTA
- 增加 Searcher 数量持续提升攻击成功率和多样性

### 大规模模型 (MATH, Qwen 2.5 7B)
- TBA′ 在高度 off-policy 设置下（10 步 stale）**显著优于 Dr. GRPO**

## 概念网络

```
TBA 框架
├── 算法基础
│   ├── [[trajectory-balance-objective]]: Off-policy TB 目标
│   │   └── 源自 [[gflownet-fine-tuning|GFlowNet fine-tuning]]
│   └── KL 正则化 RL: π* ∝ π_ref · exp(r/β)
├── 系统架构
│   ├── [[asynchronous-rl-llm]]: 解耦探索与学习
│   ├── [[searcher-trainer-decoupling]]: Searcher ↔ Trainer
│   └── [[replay-buffer-rl-llm]]: Global replay buffer
├── 采样策略
│   └── [[reward-recency-sampling]]: 奖励 vs 最近度
└── 对比基线
    ├── [[grpo]]: On-policy 基线
    └── [[off-policy-llm-post-training]]: Off-policy RL 范式
```

## 论文信息

- **arXiv**: [2503.18929](https://arxiv.org/abs/2503.18929)
- **代码**: [bbartoldson/TBA](https://github.com/bbartoldson/TBA)
- **机构**: LLNL × Mila × Université de Montréal × KAIST × CIFAR
- **发表**: NeurIPS 2025