--- title: "Pre-train Space Reinforcement Learning (PreRL)" created: 2026-05-18 type: concept tags: ["reinforcement-learning", "LLM", "pre-training", "GRPO"] sources: ["https://arxiv.org/abs/2604.14142"] --- # Pre-train Space Reinforcement Learning (PreRL) ## 定义 PreRL 是一种新的 RL 范式,直接在 **预训练空间** 中优化 LLM 的边缘分布 P(y),而非传统的条件分布 P(y|x)。在梯度更新时,**遮蔽输入条件 x**,使模型学习与问题无关的通用推理能力。 ## 核心机制 ### 与标准 RL 的对比 | 维度 | Post-train Space RL | Pre-train Space RL | |------|-------------------|-------------------| | 优化目标 | P(y\|x) | P(y) | | 梯度 | ∇log π(y\|x) · R | ∇log π(y) · R | | 条件依赖 | 保留输入 x | 遮蔽输入 x | | 探索空间 | 条件约束的 | 无条件扩展的 | ### 理论合理性 基于 [[shared-parameter-influence|共享参数影响]]:模型参数 θ 同时控制 P(y) 和 P(y|x)。一阶泰勒展开证明,当 [[gradient-alignment|梯度对齐]] 条件满足时(⟨∇log P(y), ∇log P(y|x)⟩ ≥ 0),优化 P(y) 自然带动 P(y|x) 的改善。 ### 与传统预训练的区别 - **传统预训练**:被动学习,静态语料 + NTP - **PreRL**:主动学习,在线 rollout + verifiable rewards - PreRL 只更新 response y,不更新输入 x 部分 ## 训练动态 PreRL 在前 150 步表现与标准 RL 相当,之后经历显著性能崩溃。分解分析揭示: - [[positive-sample-reinforcement|PSR-PreRL]] 导致 on-policy collapse - [[negative-sample-reinforcement|NSR-PreRL]] 是真正的有效驱动力 ## 相关概念 - [[dual-space-rl|Dual Space RL (DSRL)]] — PreRL → RL 的策略转生框架 - [[post-train-space-rl|Post-train Space RL]] — 传统 RLVR - [[endogenous-reasoning|内生推理]] — NSR-PreRL 激发的推理行为