47 lines
1.8 KiB
Markdown
47 lines
1.8 KiB
Markdown
---
|
||
title: "Pre-train Space Reinforcement Learning (PreRL)"
|
||
created: 2026-05-18
|
||
type: concept
|
||
tags: ["reinforcement-learning", "LLM", "pre-training", "GRPO"]
|
||
sources: ["https://arxiv.org/abs/2604.14142"]
|
||
---
|
||
|
||
# Pre-train Space Reinforcement Learning (PreRL)
|
||
|
||
## 定义
|
||
|
||
PreRL 是一种新的 RL 范式,直接在 **预训练空间** 中优化 LLM 的边缘分布 P(y),而非传统的条件分布 P(y|x)。在梯度更新时,**遮蔽输入条件 x**,使模型学习与问题无关的通用推理能力。
|
||
|
||
## 核心机制
|
||
|
||
### 与标准 RL 的对比
|
||
|
||
| 维度 | Post-train Space RL | Pre-train Space RL |
|
||
|------|-------------------|-------------------|
|
||
| 优化目标 | P(y\|x) | P(y) |
|
||
| 梯度 | ∇log π(y\|x) · R | ∇log π(y) · R |
|
||
| 条件依赖 | 保留输入 x | 遮蔽输入 x |
|
||
| 探索空间 | 条件约束的 | 无条件扩展的 |
|
||
|
||
### 理论合理性
|
||
|
||
基于 [[shared-parameter-influence|共享参数影响]]:模型参数 θ 同时控制 P(y) 和 P(y|x)。一阶泰勒展开证明,当 [[gradient-alignment|梯度对齐]] 条件满足时(⟨∇log P(y), ∇log P(y|x)⟩ ≥ 0),优化 P(y) 自然带动 P(y|x) 的改善。
|
||
|
||
### 与传统预训练的区别
|
||
|
||
- **传统预训练**:被动学习,静态语料 + NTP
|
||
- **PreRL**:主动学习,在线 rollout + verifiable rewards
|
||
- PreRL 只更新 response y,不更新输入 x 部分
|
||
|
||
## 训练动态
|
||
|
||
PreRL 在前 150 步表现与标准 RL 相当,之后经历显著性能崩溃。分解分析揭示:
|
||
- [[positive-sample-reinforcement|PSR-PreRL]] 导致 on-policy collapse
|
||
- [[negative-sample-reinforcement|NSR-PreRL]] 是真正的有效驱动力
|
||
|
||
## 相关概念
|
||
|
||
- [[dual-space-rl|Dual Space RL (DSRL)]] — PreRL → RL 的策略转生框架
|
||
- [[post-train-space-rl|Post-train Space RL]] — 传统 RLVR
|
||
- [[endogenous-reasoning|内生推理]] — NSR-PreRL 激发的推理行为
|