110 lines
6.1 KiB
Markdown
110 lines
6.1 KiB
Markdown
---
|
||
title: "TBA Review — 2026-05-12"
|
||
created: 2026-05-12
|
||
type: review
|
||
sources: ["arxiv:2503.18929"]
|
||
---
|
||
|
||
# TBA: Trajectory Balance with Asynchrony — 集成 Review
|
||
|
||
📌 **基本信息**
|
||
- 论文:*Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training*
|
||
- 作者:Brian Bartoldson et al. (LLNL × Mila × UdeM × KAIST × CIFAR)
|
||
- 发表:NeurIPS 2025
|
||
- arXiv:2503.18929
|
||
- 代码:[bbartoldson/TBA](https://github.com/bbartoldson/TBA)
|
||
|
||
---
|
||
|
||
🎯 **核心概念**
|
||
|
||
1. **[[tba|TBA]](异步轨迹平衡框架)** — 将 GFlowNet 的 off-policy [[trajectory-balance-objective|TB 目标]] 与分布式 [[asynchronous-rl-llm|异步 RL]] 结合,实现 Searcher-Trainer 解耦,达到 4×–50× 训练加速。
|
||
|
||
2. **[[trajectory-balance-objective|Trajectory Balance (TB) 目标]]** — GFlowNet 的一种学习目标,天然 off-policy 兼容。在 LLM 后训练中,TB_VarGrad 梯度等价于 mean-baseline REINFORCE + KL 正则化奖励,但不要求 on-policy 数据。
|
||
|
||
3. **[[searcher-trainer-decoupling|Searcher-Trainer 解耦]]** — Searcher 节点持续生成响应和评估奖励(vLLM 推理),Trainer 节点持续从 [[replay-buffer-rl-llm|Global Replay Buffer]] 采样训练——两者互不等待,GPU 利用率接近 100%。
|
||
|
||
4. **[[reward-recency-sampling|奖励-最近度混合采样]]** — 概率 m 采样最近数据(稳定训练),概率 1−m 按奖励采样(鼓励探索),在 query 级别随机切换。m=0.5–0.6 效果最佳。
|
||
|
||
5. **[[gflownet-fine-tuning|GFlowNet 微调]]** — TBA 所属的理论框架,利用 GFlowNet 的分布匹配(而非奖励最大化)进行 LLM 后训练,天然产生多样化输出。
|
||
|
||
---
|
||
|
||
🔗 **概念网络**
|
||
|
||
```
|
||
[[rlvr-unified-framework]]
|
||
↑ RL 后训练范式
|
||
┌───────┴───────────┐
|
||
│ │
|
||
[[grpo]] [[gflownet-fine-tuning]]
|
||
(On-Policy) (Off-Policy 分布式采样)
|
||
↑ 对比 ↑ 基础框架
|
||
│ │
|
||
┌───┴───────────┐ [[trajectory-balance-objective]]
|
||
│ │ ↑ TB 目标
|
||
[[asynchronous-rl-llm]] ┌───────┴───────────────┐
|
||
↑ 异步范式 │ │
|
||
│ │ │
|
||
[[searcher-trainer- [[tba|TBA]] [[replay-buffer-rl-llm]]
|
||
decoupling]] ↑ 框架 ↑ Buffer
|
||
↑ 架构 │ │
|
||
└────────────────────┼────────────────────────┘
|
||
│
|
||
[[reward-recency-sampling]]
|
||
↑ 采样策略
|
||
│
|
||
[[off-policy-llm-post-training]]
|
||
↑ Off-Policy 范式
|
||
```
|
||
|
||
- **核心连接**:GFlowNet → TB → TBA → Searcher-Trainer 解耦 → Replay Buffer → 奖励-最近度采样
|
||
- **与现有网络连接**:链接了 [[grpo]]、[[rlvr-unified-framework]]、[[dgpo]]、[[dai-mathforge-2026|MathForge]]
|
||
- **新增概念**:8 个(全部为全新建模概念)
|
||
|
||
---
|
||
|
||
📚 **Wiki 集成**
|
||
|
||
| 类型 | 数量 | 描述 |
|
||
|------|------|------|
|
||
| 论文页面 | 1 | [[bartoldson-tba-2025]] |
|
||
| 原始存档 | 1 | `raw/papers/bartoldson-tba-2025.md` |
|
||
| 概念页面 | 8 | [[tba]], [[trajectory-balance-objective]], [[asynchronous-rl-llm]], [[off-policy-llm-post-training]], [[gflownet-fine-tuning]], [[replay-buffer-rl-llm]], [[searcher-trainer-decoupling]], [[reward-recency-sampling]] |
|
||
| Review 报告 | 1 | 本文件 |
|
||
| **本论文新增** | **11 页** | |
|
||
| 总规模 | 255 → **264 页** | |
|
||
| 链接完整性 | ✅ **0 断链** | |
|
||
|
||
---
|
||
|
||
💡 **关键洞察**
|
||
|
||
1. **TB 的 off-policy 性质是核心突破**:此前异步 LLM RL 的瓶颈在于 on-policy 算法(PPO/GRPO/RLOO)对 off-policyness 敏感——Async DPO 和 Proximal RLOO 在策略偏离增大时性能显著下降。TBA 用 TB 目标绕过了这个限制:TB 天然 off-policy 兼容,只要数据有 full support 即保证收敛。这不仅是工程优化,更是**算法选择决定架构可能性**的典型案例。
|
||
|
||
2. **"训练速度即模型能力"**:TBA 的 50× 加速不是免费的午餐——它源于架构上的根本性重新思考。Searcher 和 Trainer 互不等待意味着在相同 wall-clock 时间内可以处理更多数据、尝试更多探索。在 red-teaming 实验中,增加 Searcher 数量持续提升攻击成功率和多样性,表明**计算扩展直接转化为能力提升**。
|
||
|
||
3. **与 MathForge 的互补性**:TBA(加速训练)和 [[dai-mathforge-2026|MathForge]](提升训练质量)代表了 LLM RL 后训练的两个正交维度。TBA 解决 "how fast",MathForge 解决 "how well"。未来二者结合可能有巨大潜力。
|
||
|
||
4. **Kimi K1.5/K2 的联系**:论文揭示 Kimi K1.5/K2 的 RL 目标几乎等同 TB,但排除了 log-probability-ratio 的 control variate。TBA 保持此 term 且 ref-policy reset 更保守,这是理解工业界前沿 RL 训练的一个理论锚点。
|
||
|
||
---
|
||
|
||
📊 **实验亮点**
|
||
|
||
| 任务 | 模型 | 加速比 | 性能 |
|
||
|------|------|--------|------|
|
||
| GSM8K MR | RhoMath-1B | **50×** vs VinePPO | 55% (+1.8%) |
|
||
| TL;DR PFT | Pythia 410M | **5×** vs Async DPO | 0.86 win-rate |
|
||
| MATH MR | Qwen 2.5 7B | — | 超越 Dr. GRPO (off-policy) |
|
||
| Red-Teaming | GPT-2 | **7×** vs GFlowNet | SOTA Pareto 前沿 |
|
||
|
||
---
|
||
|
||
🎓 **方法论意义**
|
||
|
||
TBA 展示了"借鉴成熟 RL 社区的技术 + 适配 LLM 特性"的成功范式:
|
||
- 从 GFlowNets 借 TB 目标 → 解决 off-policy 学习
|
||
- 从 IMPALA 借 Actor-Learner 架构 → 解耦探索与学习
|
||
- 避免直接移植 Value-based 方法(不适合 LLM 的巨大 action space)
|