SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

2.0 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Off-Policy LLM 后训练

2026-05-12

2026-05-12

concept

reinforcement-learning

llm-post-training

off-policy

arxiv:2503.18929

Off-Policy LLM 后训练

Off-Policy LLM 后训练 指使用非当前策略生成的数据来训练语言模型策略的 RL 范式，是 asynchronous-rl-llm 的基础。

与 On-Policy 的对比

维度	On-Policy	Off-Policy
数据来源	当前策略生成	任意策略（历史 buffer）
训练效率	串行瓶颈	高度并行
数据利用率	一次使用	多次重用
探索能力	受限于当前策略	可混合多种策略数据
算法要求	简单	需处理分布偏移

为什么 LLM RL 难以 Off-Policy？

传统 RL（Atari、机器人）通过价值函数（Q-learning）实现 off-policy 学习。但 LLM 的 action space 极大（token-level），学习准确的价值函数极具挑战性（DeepSeek-R1 明确指出 critic 训练的困难）。

因此现有方法：

Async DPO：性能随 off-policyness 增长而下降
Proximal RLOO：用 IS ratio clipping 勉强缓解

TBA 的突破

tba 绕过了价值函数的需求——trajectory-balance-objective 直接从轨迹级（trajectory-level）信号学习，不依赖 Q(s,a) 估计。数据只要具有 full support，TB 保证收敛。

结果：即使在 15 步 stale 数据上训练，TBA 的性能仍超越 on-policy 基线。

关键设计要素

分布约束：TB 的 KL 正则化（β 参数）防止策略过度偏离
参考策略重置：定期重置 π_ref，提供新鲜的正则化锚点
采样策略混合：reward-recency-sampling 平衡稳定性与探索

相关概念

tba — 框架实现
trajectory-balance-objective — TB 目标
asynchronous-rl-llm — 异步 RL 范式
replay-buffer-rl-llm — Buffer 设计
bartoldson-tba-2025