--- title: "Off-Policy LLM 后训练" created: 2026-05-12 updated: 2026-05-12 type: concept tags: ["reinforcement-learning", "llm-post-training", "off-policy"] sources: ["arxiv:2503.18929"] --- # Off-Policy LLM 后训练 **Off-Policy LLM 后训练** 指使用**非当前策略生成的数据**来训练语言模型策略的 RL 范式,是 [[asynchronous-rl-llm|异步 RL]] 的基础。 ## 与 On-Policy 的对比 | 维度 | On-Policy | Off-Policy | |------|-----------|-----------| | 数据来源 | 当前策略生成 | 任意策略(历史 buffer) | | 训练效率 | 串行瓶颈 | 高度并行 | | 数据利用率 | 一次使用 | 多次重用 | | 探索能力 | 受限于当前策略 | 可混合多种策略数据 | | 算法要求 | 简单 | 需处理分布偏移 | ## 为什么 LLM RL 难以 Off-Policy? 传统 RL(Atari、机器人)通过价值函数(Q-learning)实现 off-policy 学习。但 LLM 的 action space 极大(token-level),学习准确的价值函数极具挑战性(DeepSeek-R1 明确指出 critic 训练的困难)。 因此现有方法: - Async DPO:性能随 off-policyness 增长而下降 - Proximal RLOO:用 IS ratio clipping 勉强缓解 ## TBA 的突破 [[tba|TBA]] 绕过了价值函数的需求——[[trajectory-balance-objective|TB 目标]] 直接从轨迹级(trajectory-level)信号学习,不依赖 Q(s,a) 估计。数据只要具有 full support,TB 保证收敛。 **结果**:即使在 15 步 stale 数据上训练,TBA 的性能仍超越 on-policy 基线。 ## 关键设计要素 1. **分布约束**:TB 的 KL 正则化(β 参数)防止策略过度偏离 2. **参考策略重置**:定期重置 π_ref,提供新鲜的正则化锚点 3. **采样策略混合**:[[reward-recency-sampling|recency + reward 混合采样]] 平衡稳定性与探索 ## 相关概念 - [[tba|TBA]] — 框架实现 - [[trajectory-balance-objective]] — TB 目标 - [[asynchronous-rl-llm]] — 异步 RL 范式 - [[replay-buffer-rl-llm]] — Buffer 设计 - [[bartoldson-tba-2025|论文页面]]