Files
myWiki/concepts/off-policy-llm-post-training.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Off-Policy LLM 后训练 2026-05-12 2026-05-12 concept
reinforcement-learning
llm-post-training
off-policy
arxiv:2503.18929

Off-Policy LLM 后训练

Off-Policy LLM 后训练 指使用非当前策略生成的数据来训练语言模型策略的 RL 范式,是 asynchronous-rl-llm 的基础。

与 On-Policy 的对比

维度 On-Policy Off-Policy
数据来源 当前策略生成 任意策略(历史 buffer
训练效率 串行瓶颈 高度并行
数据利用率 一次使用 多次重用
探索能力 受限于当前策略 可混合多种策略数据
算法要求 简单 需处理分布偏移

为什么 LLM RL 难以 Off-Policy

传统 RLAtari、机器人通过价值函数Q-learning实现 off-policy 学习。但 LLM 的 action space 极大token-level学习准确的价值函数极具挑战性DeepSeek-R1 明确指出 critic 训练的困难)。

因此现有方法:

  • Async DPO性能随 off-policyness 增长而下降
  • Proximal RLOO用 IS ratio clipping 勉强缓解

TBA 的突破

tba 绕过了价值函数的需求——trajectory-balance-objective 直接从轨迹级trajectory-level信号学习不依赖 Q(s,a) 估计。数据只要具有 full supportTB 保证收敛。

结果:即使在 15 步 stale 数据上训练TBA 的性能仍超越 on-policy 基线。

关键设计要素

  1. 分布约束TB 的 KL 正则化(β 参数)防止策略过度偏离
  2. 参考策略重置:定期重置 π_ref提供新鲜的正则化锚点
  3. 采样策略混合reward-recency-sampling 平衡稳定性与探索

相关概念