20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/off-policy-llm-post-training.md
+++ b/concepts/off-policy-llm-post-training.md
@@ -0,0 +1,50 @@
+---
+title: "Off-Policy LLM 后训练"
+created: 2026-05-12
+updated: 2026-05-12
+type: concept
+tags: ["reinforcement-learning", "llm-post-training", "off-policy"]
+sources: ["arxiv:2503.18929"]
+---
+
+# Off-Policy LLM 后训练
+
+**Off-Policy LLM 后训练** 指使用**非当前策略生成的数据**来训练语言模型策略的 RL 范式，是 [[asynchronous-rl-llm|异步 RL]] 的基础。
+
+## 与 On-Policy 的对比
+
+| 维度 | On-Policy | Off-Policy |
+|------|-----------|-----------|
+| 数据来源 | 当前策略生成 | 任意策略（历史 buffer） |
+| 训练效率 | 串行瓶颈 | 高度并行 |
+| 数据利用率 | 一次使用 | 多次重用 |
+| 探索能力 | 受限于当前策略 | 可混合多种策略数据 |
+| 算法要求 | 简单 | 需处理分布偏移 |
+
+## 为什么 LLM RL 难以 Off-Policy？
+
+传统 RL（Atari、机器人）通过价值函数（Q-learning）实现 off-policy 学习。但 LLM 的 action space 极大（token-level），学习准确的价值函数极具挑战性（DeepSeek-R1 明确指出 critic 训练的困难）。
+
+因此现有方法：
+- Async DPO：性能随 off-policyness 增长而下降
+- Proximal RLOO：用 IS ratio clipping 勉强缓解
+
+## TBA 的突破
+
+[[tba|TBA]] 绕过了价值函数的需求——[[trajectory-balance-objective|TB 目标]] 直接从轨迹级（trajectory-level）信号学习，不依赖 Q(s,a) 估计。数据只要具有 full support，TB 保证收敛。
+
+**结果**：即使在 15 步 stale 数据上训练，TBA 的性能仍超越 on-policy 基线。
+
+## 关键设计要素
+
+1. **分布约束**：TB 的 KL 正则化（β 参数）防止策略过度偏离
+2. **参考策略重置**：定期重置 π_ref，提供新鲜的正则化锚点
+3. **采样策略混合**：[[reward-recency-sampling|recency + reward 混合采样]] 平衡稳定性与探索
+
+## 相关概念
+
+- [[tba|TBA]] — 框架实现
+- [[trajectory-balance-objective]] — TB 目标
+- [[asynchronous-rl-llm]] — 异步 RL 范式
+- [[replay-buffer-rl-llm]] — Buffer 设计
+- [[bartoldson-tba-2025|论文页面]]