2.0 KiB
2.0 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Off-Policy LLM 后训练 | 2026-05-12 | 2026-05-12 | concept |
|
|
Off-Policy LLM 后训练
Off-Policy LLM 后训练 指使用非当前策略生成的数据来训练语言模型策略的 RL 范式,是 asynchronous-rl-llm 的基础。
与 On-Policy 的对比
| 维度 | On-Policy | Off-Policy |
|---|---|---|
| 数据来源 | 当前策略生成 | 任意策略(历史 buffer) |
| 训练效率 | 串行瓶颈 | 高度并行 |
| 数据利用率 | 一次使用 | 多次重用 |
| 探索能力 | 受限于当前策略 | 可混合多种策略数据 |
| 算法要求 | 简单 | 需处理分布偏移 |
为什么 LLM RL 难以 Off-Policy?
传统 RL(Atari、机器人)通过价值函数(Q-learning)实现 off-policy 学习。但 LLM 的 action space 极大(token-level),学习准确的价值函数极具挑战性(DeepSeek-R1 明确指出 critic 训练的困难)。
因此现有方法:
- Async DPO:性能随 off-policyness 增长而下降
- Proximal RLOO:用 IS ratio clipping 勉强缓解
TBA 的突破
tba 绕过了价值函数的需求——trajectory-balance-objective 直接从轨迹级(trajectory-level)信号学习,不依赖 Q(s,a) 估计。数据只要具有 full support,TB 保证收敛。
结果:即使在 15 步 stale 数据上训练,TBA 的性能仍超越 on-policy 基线。
关键设计要素
- 分布约束:TB 的 KL 正则化(β 参数)防止策略过度偏离
- 参考策略重置:定期重置 π_ref,提供新鲜的正则化锚点
- 采样策略混合:reward-recency-sampling 平衡稳定性与探索
相关概念
- tba — 框架实现
- trajectory-balance-objective — TB 目标
- asynchronous-rl-llm — 异步 RL 范式
- replay-buffer-rl-llm — Buffer 设计
- bartoldson-tba-2025