Pre-train Space Reinforcement Learning (PreRL / DSRL)

从 P(y|x) 到 P(y)：在预训练空间中研究强化学习

核心问题

标准 RLVR（如 GRPO）通过优化条件分布 P(y|x) 提升 LLM 推理能力，但其上限被基座模型的已有输出分布所约束。PreRL 提出直接在 预训练空间（Pre-train Space） 中优化边缘分布 P(y)，从根源上扩展推理能力的基础。

将 RL 的优化目标从 P(y|x) 变为 P(y)，在梯度更新时遮蔽输入条件 x。核心理论支撑是 gradient-alignment：证明 log P(y) 和 log P(y|x) 的梯度内积始终非负（均值 +9.2），因此优化边际分布可以有效提升条件策略。

解剖 PreRL 中正负样本的作用，发现关键的不对称性：

PSR（正样本强化） 在预训练空间中会退化为 on-policy collapse
NSR（负样本强化） 通过剪枝错误推理路径，激发 endogenous-reasoning，transition 和 reflection 思维分别增长 14.89× 和 6.54×

采用 policy-reincarnation 策略：先用 NSR-PreRL 扩展推理视野（消除根本性错误），再切换到标准 RL 进行细粒度优化。公式化为条件掩码的 phase-switching：

∇J_DSRL = E[∑∇log π(y_t | x^{I[s>S]}, y_{<t}) · R(y) · I[s>S ∨ R(y)<0]]