--- title: "Distribution Shift(分布偏移)" created: 2026-05-18 type: concept tags: ["pre-training", "LLM", "domain-adaptation"] sources: ["https://arxiv.org/abs/2604.14142"] --- # Distribution Shift(分布偏移) ## 在 PreRL 语境中的定义 传统预训练使用的**静态语料**(web text, Wikipedia)与下游推理任务的**任务分布**之间存在显著的分布偏移。这种偏移导致: - 预训练知识无法有针对性地增强推理能力 - 直接 SFT 微调受限于预训练分布 - RLVR 可部分弥补,但被基座模型的上限所约束 ## PreRL 的解决方案 PreRL 通过**在线、奖励驱动**的更新直接在 P(y) 上操作,消除了"语料→任务"的分布桥接需求: - 不使用静态语料,而是从任务中采样 self-rollout - 使用可验证奖励而非 NTP loss - 只更新 response 部分,保持任务对齐 ## 对比 | 方法 | 数据源 | 学习信号 | 分布偏移 | |------|--------|---------|---------| | Pre-training | 静态语料 | NTP | 高 | | Continual Pre-training | 任务相关语料 | NTP | 中 | | PreRL | Online rollout | Verifiable reward | **低** | ## 相关概念 - [[pre-train-space-reinforcement-learning|PreRL]] - [[dual-space-rl|DSRL]]