Files
myWiki/concepts/distribution-shift.md
2026-06-01 10:46:01 +08:00

1.2 KiB
Raw Blame History

title, created, type, tags, sources
title created type tags sources
Distribution Shift分布偏移 2026-05-18 concept
pre-training
LLM
domain-adaptation
https://arxiv.org/abs/2604.14142

Distribution Shift分布偏移

在 PreRL 语境中的定义

传统预训练使用的静态语料web text, Wikipedia与下游推理任务的任务分布之间存在显著的分布偏移。这种偏移导致:

  • 预训练知识无法有针对性地增强推理能力
  • 直接 SFT 微调受限于预训练分布
  • RLVR 可部分弥补,但被基座模型的上限所约束

PreRL 的解决方案

PreRL 通过在线、奖励驱动的更新直接在 P(y) 上操作,消除了"语料→任务"的分布桥接需求:

  • 不使用静态语料,而是从任务中采样 self-rollout
  • 使用可验证奖励而非 NTP loss
  • 只更新 response 部分,保持任务对齐

对比

方法 数据源 学习信号 分布偏移
Pre-training 静态语料 NTP
Continual Pre-training 任务相关语料 NTP
PreRL Online rollout Verifiable reward

相关概念