Files
myWiki/concepts/off-policy-llm-post-training.md

51 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Off-Policy LLM 后训练"
created: 2026-05-12
updated: 2026-05-12
type: concept
tags: ["reinforcement-learning", "llm-post-training", "off-policy"]
sources: ["arxiv:2503.18929"]
---
# Off-Policy LLM 后训练
**Off-Policy LLM 后训练** 指使用**非当前策略生成的数据**来训练语言模型策略的 RL 范式,是 [[asynchronous-rl-llm|异步 RL]] 的基础。
## 与 On-Policy 的对比
| 维度 | On-Policy | Off-Policy |
|------|-----------|-----------|
| 数据来源 | 当前策略生成 | 任意策略(历史 buffer |
| 训练效率 | 串行瓶颈 | 高度并行 |
| 数据利用率 | 一次使用 | 多次重用 |
| 探索能力 | 受限于当前策略 | 可混合多种策略数据 |
| 算法要求 | 简单 | 需处理分布偏移 |
## 为什么 LLM RL 难以 Off-Policy
传统 RLAtari、机器人通过价值函数Q-learning实现 off-policy 学习。但 LLM 的 action space 极大token-level学习准确的价值函数极具挑战性DeepSeek-R1 明确指出 critic 训练的困难)。
因此现有方法:
- Async DPO性能随 off-policyness 增长而下降
- Proximal RLOO用 IS ratio clipping 勉强缓解
## TBA 的突破
[[tba|TBA]] 绕过了价值函数的需求——[[trajectory-balance-objective|TB 目标]] 直接从轨迹级trajectory-level信号学习不依赖 Q(s,a) 估计。数据只要具有 full supportTB 保证收敛。
**结果**:即使在 15 步 stale 数据上训练TBA 的性能仍超越 on-policy 基线。
## 关键设计要素
1. **分布约束**TB 的 KL 正则化(β 参数)防止策略过度偏离
2. **参考策略重置**:定期重置 π_ref提供新鲜的正则化锚点
3. **采样策略混合**[[reward-recency-sampling|recency + reward 混合采样]] 平衡稳定性与探索
## 相关概念
- [[tba|TBA]] — 框架实现
- [[trajectory-balance-objective]] — TB 目标
- [[asynchronous-rl-llm]] — 异步 RL 范式
- [[replay-buffer-rl-llm]] — Buffer 设计
- [[bartoldson-tba-2025|论文页面]]