--- title: "Post-train Space Reinforcement Learning" created: 2026-05-18 type: concept tags: ["reinforcement-learning", "LLM", "GRPO", "RLVR"] sources: ["https://arxiv.org/abs/2604.14142"] --- # Post-train Space Reinforcement Learning ## 定义 Post-train Space RL 是当前主流的 LLM 强化学习范式,优化**条件分布** P(y|x)。给定输入问题 x,策略 π_θ 生成推理轨迹 y,通过可验证奖励(RLVR)进行优化。 ## 标准目标函数 ``` J_RL(π_θ) = E_{x~X} E_{y~π_θ(·|x)} [R(y) - β·D_KL(π_θ||π_ref)] ``` 梯度(β=0 时): ``` ∇J = E_{x,y} [∑_{t=1}^{|y|} ∇log π_θ(y_t|x, y_{