---
title: "Pre-train Space Reinforcement Learning (PreRL)"
created: 2026-05-18
type: concept
tags: ["reinforcement-learning", "LLM", "pre-training", "GRPO"]
sources: ["https://arxiv.org/abs/2604.14142"]
---

# Pre-train Space Reinforcement Learning (PreRL)

## 定义

PreRL 是一种新的 RL 范式，直接在 **预训练空间** 中优化 LLM 的边缘分布 P(y)，而非传统的条件分布 P(y|x)。在梯度更新时，**遮蔽输入条件 x**，使模型学习与问题无关的通用推理能力。

## 核心机制

### 与标准 RL 的对比

| 维度 | Post-train Space RL | Pre-train Space RL |
|------|-------------------|-------------------|
| 优化目标 | P(y\|x) | P(y) |
| 梯度 | ∇log π(y\|x) · R | ∇log π(y) · R |
| 条件依赖 | 保留输入 x | 遮蔽输入 x |
| 探索空间 | 条件约束的 | 无条件扩展的 |

### 理论合理性

基于 [[shared-parameter-influence|共享参数影响]]：模型参数 θ 同时控制 P(y) 和 P(y|x)。一阶泰勒展开证明，当 [[gradient-alignment|梯度对齐]] 条件满足时（⟨∇log P(y), ∇log P(y|x)⟩ ≥ 0），优化 P(y) 自然带动 P(y|x) 的改善。

### 与传统预训练的区别

- **传统预训练**：被动学习，静态语料 + NTP
- **PreRL**：主动学习，在线 rollout + verifiable rewards
- PreRL 只更新 response y，不更新输入 x 部分

## 训练动态

PreRL 在前 150 步表现与标准 RL 相当，之后经历显著性能崩溃。分解分析揭示：
- [[positive-sample-reinforcement|PSR-PreRL]] 导致 on-policy collapse
- [[negative-sample-reinforcement|NSR-PreRL]] 是真正的有效驱动力

## 相关概念

- [[dual-space-rl|Dual Space RL (DSRL)]] — PreRL → RL 的策略转生框架
- [[post-train-space-rl|Post-train Space RL]] — 传统 RLVR
- [[endogenous-reasoning|内生推理]] — NSR-PreRL 激发的推理行为