title, created, type, tags, sources
| title |
created |
type |
tags |
sources |
| Distribution Shift(分布偏移) |
2026-05-18 |
concept |
| pre-training |
| LLM |
| domain-adaptation |
|
|
Distribution Shift(分布偏移)
在 PreRL 语境中的定义
传统预训练使用的静态语料(web text, Wikipedia)与下游推理任务的任务分布之间存在显著的分布偏移。这种偏移导致:
- 预训练知识无法有针对性地增强推理能力
- 直接 SFT 微调受限于预训练分布
- RLVR 可部分弥补,但被基座模型的上限所约束
PreRL 的解决方案
PreRL 通过在线、奖励驱动的更新直接在 P(y) 上操作,消除了"语料→任务"的分布桥接需求:
- 不使用静态语料,而是从任务中采样 self-rollout
- 使用可验证奖励而非 NTP loss
- 只更新 response 部分,保持任务对齐
对比
| 方法 |
数据源 |
学习信号 |
分布偏移 |
| Pre-training |
静态语料 |
NTP |
高 |
| Continual Pre-training |
任务相关语料 |
NTP |
中 |
| PreRL |
Online rollout |
Verifiable reward |
低 |
相关概念