SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.8 KiB

Raw Blame History

title, created, type, tags, sources

title

created

type

tags

sources

Pre-train Space Reinforcement Learning (PreRL)

2026-05-18

concept

reinforcement-learning

LLM

pre-training

GRPO

https://arxiv.org/abs/2604.14142

Pre-train Space Reinforcement Learning (PreRL)

定义

PreRL 是一种新的 RL 范式，直接在 预训练空间 中优化 LLM 的边缘分布 P(y)，而非传统的条件分布 P(y|x)。在梯度更新时，遮蔽输入条件 x，使模型学习与问题无关的通用推理能力。

核心机制

与标准 RL 的对比

维度	Post-train Space RL	Pre-train Space RL
优化目标	P(y\|x)	P(y)
梯度	∇log π(y\|x) · R	∇log π(y) · R
条件依赖	保留输入 x	遮蔽输入 x
探索空间	条件约束的	无条件扩展的

理论合理性

基于 shared-parameter-influence：模型参数 θ 同时控制 P(y) 和 P(y|x)。一阶泰勒展开证明，当 gradient-alignment 条件满足时（⟨∇log P(y), ∇log P(y|x)⟩ ≥ 0），优化 P(y) 自然带动 P(y|x) 的改善。

与传统预训练的区别

传统预训练：被动学习，静态语料 + NTP
PreRL：主动学习，在线 rollout + verifiable rewards
PreRL 只更新 response y，不更新输入 x 部分

训练动态

PreRL 在前 150 步表现与标准 RL 相当，之后经历显著性能崩溃。分解分析揭示：

positive-sample-reinforcement 导致 on-policy collapse
negative-sample-reinforcement 是真正的有效驱动力

相关概念

dual-space-rl — PreRL → RL 的策略转生框架
post-train-space-rl — 传统 RLVR
endogenous-reasoning — NSR-PreRL 激发的推理行为