37 lines
1.2 KiB
Markdown
37 lines
1.2 KiB
Markdown
---
|
||
title: "Distribution Shift(分布偏移)"
|
||
created: 2026-05-18
|
||
type: concept
|
||
tags: ["pre-training", "LLM", "domain-adaptation"]
|
||
sources: ["https://arxiv.org/abs/2604.14142"]
|
||
---
|
||
|
||
# Distribution Shift(分布偏移)
|
||
|
||
## 在 PreRL 语境中的定义
|
||
|
||
传统预训练使用的**静态语料**(web text, Wikipedia)与下游推理任务的**任务分布**之间存在显著的分布偏移。这种偏移导致:
|
||
- 预训练知识无法有针对性地增强推理能力
|
||
- 直接 SFT 微调受限于预训练分布
|
||
- RLVR 可部分弥补,但被基座模型的上限所约束
|
||
|
||
## PreRL 的解决方案
|
||
|
||
PreRL 通过**在线、奖励驱动**的更新直接在 P(y) 上操作,消除了"语料→任务"的分布桥接需求:
|
||
- 不使用静态语料,而是从任务中采样 self-rollout
|
||
- 使用可验证奖励而非 NTP loss
|
||
- 只更新 response 部分,保持任务对齐
|
||
|
||
## 对比
|
||
|
||
| 方法 | 数据源 | 学习信号 | 分布偏移 |
|
||
|------|--------|---------|---------|
|
||
| Pre-training | 静态语料 | NTP | 高 |
|
||
| Continual Pre-training | 任务相关语料 | NTP | 中 |
|
||
| PreRL | Online rollout | Verifiable reward | **低** |
|
||
|
||
## 相关概念
|
||
|
||
- [[pre-train-space-reinforcement-learning|PreRL]]
|
||
- [[dual-space-rl|DSRL]]
|