20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/reviews/tba-review-20260512.md
+++ b/reviews/tba-review-20260512.md
@@ -0,0 +1,109 @@
+---
+title: "TBA Review — 2026-05-12"
+created: 2026-05-12
+type: review
+sources: ["arxiv:2503.18929"]
+---
+
+# TBA: Trajectory Balance with Asynchrony — 集成 Review
+
+📌 **基本信息**
+- 论文：*Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training*
+- 作者：Brian Bartoldson et al. (LLNL × Mila × UdeM × KAIST × CIFAR)
+- 发表：NeurIPS 2025
+- arXiv：2503.18929
+- 代码：[bbartoldson/TBA](https://github.com/bbartoldson/TBA)
+
+---
+
+🎯 **核心概念**
+
+1. **[[tba|TBA]]（异步轨迹平衡框架）** — 将 GFlowNet 的 off-policy [[trajectory-balance-objective|TB 目标]] 与分布式 [[asynchronous-rl-llm|异步 RL]] 结合，实现 Searcher-Trainer 解耦，达到 4×–50× 训练加速。
+
+2. **[[trajectory-balance-objective|Trajectory Balance (TB) 目标]]** — GFlowNet 的一种学习目标，天然 off-policy 兼容。在 LLM 后训练中，TB_VarGrad 梯度等价于 mean-baseline REINFORCE + KL 正则化奖励，但不要求 on-policy 数据。
+
+3. **[[searcher-trainer-decoupling|Searcher-Trainer 解耦]]** — Searcher 节点持续生成响应和评估奖励（vLLM 推理），Trainer 节点持续从 [[replay-buffer-rl-llm|Global Replay Buffer]] 采样训练——两者互不等待，GPU 利用率接近 100%。
+
+4. **[[reward-recency-sampling|奖励-最近度混合采样]]** — 概率 m 采样最近数据（稳定训练），概率 1−m 按奖励采样（鼓励探索），在 query 级别随机切换。m=0.5–0.6 效果最佳。
+
+5. **[[gflownet-fine-tuning|GFlowNet 微调]]** — TBA 所属的理论框架，利用 GFlowNet 的分布匹配（而非奖励最大化）进行 LLM 后训练，天然产生多样化输出。
+
+---
+
+🔗 **概念网络**
+
+```
+                    [[rlvr-unified-framework]]
+                            ↑ RL 后训练范式
+                    ┌───────┴───────────┐
+                    │                   │
+              [[grpo]]              [[gflownet-fine-tuning]]
+           (On-Policy)              (Off-Policy 分布式采样)
+               ↑ 对比                     ↑ 基础框架
+               │                          │
+           ┌───┴───────────┐       [[trajectory-balance-objective]]
+           │               │              ↑ TB 目标
+    [[asynchronous-rl-llm]]       ┌───────┴───────────────┐
+           ↑ 异步范式             │                       │
+           │                     │                       │
+    [[searcher-trainer-    [[tba|TBA]]              [[replay-buffer-rl-llm]]
+      decoupling]]              ↑ 框架                    ↑ Buffer
+           ↑ 架构               │                        │
+           └────────────────────┼────────────────────────┘
+                                │
+                      [[reward-recency-sampling]]
+                                ↑ 采样策略
+                                │
+                      [[off-policy-llm-post-training]]
+                                ↑ Off-Policy 范式
+```
+
+- **核心连接**：GFlowNet → TB → TBA → Searcher-Trainer 解耦 → Replay Buffer → 奖励-最近度采样
+- **与现有网络连接**：链接了 [[grpo]]、[[rlvr-unified-framework]]、[[dgpo]]、[[dai-mathforge-2026|MathForge]]
+- **新增概念**：8 个（全部为全新建模概念）
+
+---
+
+📚 **Wiki 集成**
+
+| 类型 | 数量 | 描述 |
+|------|------|------|
+| 论文页面 | 1 | [[bartoldson-tba-2025]] |
+| 原始存档 | 1 | `raw/papers/bartoldson-tba-2025.md` |
+| 概念页面 | 8 | [[tba]], [[trajectory-balance-objective]], [[asynchronous-rl-llm]], [[off-policy-llm-post-training]], [[gflownet-fine-tuning]], [[replay-buffer-rl-llm]], [[searcher-trainer-decoupling]], [[reward-recency-sampling]] |
+| Review 报告 | 1 | 本文件 |
+| **本论文新增** | **11 页** | |
+| 总规模 | 255 → **264 页** | |
+| 链接完整性 | ✅ **0 断链** | |
+
+---
+
+💡 **关键洞察**
+
+1. **TB 的 off-policy 性质是核心突破**：此前异步 LLM RL 的瓶颈在于 on-policy 算法（PPO/GRPO/RLOO）对 off-policyness 敏感——Async DPO 和 Proximal RLOO 在策略偏离增大时性能显著下降。TBA 用 TB 目标绕过了这个限制：TB 天然 off-policy 兼容，只要数据有 full support 即保证收敛。这不仅是工程优化，更是**算法选择决定架构可能性**的典型案例。
+
+2. **"训练速度即模型能力"**：TBA 的 50× 加速不是免费的午餐——它源于架构上的根本性重新思考。Searcher 和 Trainer 互不等待意味着在相同 wall-clock 时间内可以处理更多数据、尝试更多探索。在 red-teaming 实验中，增加 Searcher 数量持续提升攻击成功率和多样性，表明**计算扩展直接转化为能力提升**。
+
+3. **与 MathForge 的互补性**：TBA（加速训练）和 [[dai-mathforge-2026|MathForge]]（提升训练质量）代表了 LLM RL 后训练的两个正交维度。TBA 解决 "how fast"，MathForge 解决 "how well"。未来二者结合可能有巨大潜力。
+
+4. **Kimi K1.5/K2 的联系**：论文揭示 Kimi K1.5/K2 的 RL 目标几乎等同 TB，但排除了 log-probability-ratio 的 control variate。TBA 保持此 term 且 ref-policy reset 更保守，这是理解工业界前沿 RL 训练的一个理论锚点。
+
+---
+
+📊 **实验亮点**
+
+| 任务 | 模型 | 加速比 | 性能 |
+|------|------|--------|------|
+| GSM8K MR | RhoMath-1B | **50×** vs VinePPO | 55% (+1.8%) |
+| TL;DR PFT | Pythia 410M | **5×** vs Async DPO | 0.86 win-rate |
+| MATH MR | Qwen 2.5 7B | — | 超越 Dr. GRPO (off-policy) |
+| Red-Teaming | GPT-2 | **7×** vs GFlowNet | SOTA Pareto 前沿 |
+
+---
+
+🎓 **方法论意义**
+
+TBA 展示了"借鉴成熟 RL 社区的技术 + 适配 LLM 特性"的成功范式：
+- 从 GFlowNets 借 TB 目标 → 解决 off-policy 学习
+- 从 IMPALA 借 Actor-Learner 架构 → 解耦探索与学习
+- 避免直接移植 Value-based 方法（不适合 LLM 的巨大 action space）