Files
myWiki/concepts/post-train-space-rl.md
2026-06-01 10:46:01 +08:00

1.2 KiB
Raw Blame History

title, created, type, tags, sources
title created type tags sources
Post-train Space Reinforcement Learning 2026-05-18 concept
reinforcement-learning
LLM
GRPO
RLVR
https://arxiv.org/abs/2604.14142

Post-train Space Reinforcement Learning

定义

Post-train Space RL 是当前主流的 LLM 强化学习范式,优化条件分布 P(y|x)。给定输入问题 x策略 π_θ 生成推理轨迹 y通过可验证奖励RLVR进行优化。

标准目标函数

J_RL(π_θ) = E_{x~X} E_{y~π_θ(·|x)} [R(y) - β·D_KL(π_θ||π_ref)]

梯度(β=0 时):

∇J = E_{x,y} [∑_{t=1}^{|y|} ∇log π_θ(y_t|x, y_{<t}) · R(y)]

内在局限

pre-train-space-reinforcement-learning 论文指出的核心问题:

  • Post-train space RL 被基座模型的已有输出分布所根本性约束Yue et al., 2025
  • RLVR 仅仅是"锐化"已有分布,而非扩展推理能力的上限
  • 条件约束限制了探索空间

相关概念