1.5 KiB
1.5 KiB
title, created, type, tags, sources
| title | created | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|
| Policy Reincarnation | 2026-05-18 | concept |
|
|
Policy Reincarnation(策略转生)
定义
Policy Reincarnation 是一种训练策略:在训练中途替换基座模型为中间检查点,然后重新启动 on-policy RL。核心思想是利用之前的计算(prior computation)来加速后续训练。
在 DSRL 中的应用
dual-space-rl 采用 Policy Reincarnation 将 pre-train-space-reinforcement-learning 和标准 RL 串联:
- 用 NSR-PreRL 训练 10-25 步 → 获得 checkpoint
- 将该 checkpoint 作为新的"基座模型"
- 切换到标准 GRPO 在 Post-train Space 继续训练
为何有效
- NSR-PreRL checkpoint 已经消除了根本性错误模式
- 分布 P(y) 已被剪枝,为 P(y|x) 的细粒度优化提供了更好的起点
- 后续 RL 可以专注于问题特定的微妙差异,而非基本逻辑错误
- 验证:DSRL 的 "Fully Solved" 问题数在 NSR-PreRL 阶段就已大幅攀升
转生时机
消融实验显示 S ∈ [10, 25] 为最优转生窗口。过晚转生 → NSR 的"过度探索"效应阻碍后续微调。