Files
myWiki/concepts/pre-train-space-reinforcement-learning.md
2026-06-01 10:46:01 +08:00

1.8 KiB
Raw Blame History

title, created, type, tags, sources
title created type tags sources
Pre-train Space Reinforcement Learning (PreRL) 2026-05-18 concept
reinforcement-learning
LLM
pre-training
GRPO
https://arxiv.org/abs/2604.14142

Pre-train Space Reinforcement Learning (PreRL)

定义

PreRL 是一种新的 RL 范式,直接在 预训练空间 中优化 LLM 的边缘分布 P(y),而非传统的条件分布 P(y|x)。在梯度更新时,遮蔽输入条件 x,使模型学习与问题无关的通用推理能力。

核心机制

与标准 RL 的对比

维度 Post-train Space RL Pre-train Space RL
优化目标 P(y|x) P(y)
梯度 ∇log π(y|x) · R ∇log π(y) · R
条件依赖 保留输入 x 遮蔽输入 x
探索空间 条件约束的 无条件扩展的

理论合理性

基于 shared-parameter-influence:模型参数 θ 同时控制 P(y) 和 P(y|x)。一阶泰勒展开证明,当 gradient-alignment 条件满足时⟨∇log P(y), ∇log P(y|x)⟩ ≥ 0优化 P(y) 自然带动 P(y|x) 的改善。

与传统预训练的区别

  • 传统预训练:被动学习,静态语料 + NTP
  • PreRL:主动学习,在线 rollout + verifiable rewards
  • PreRL 只更新 response y不更新输入 x 部分

训练动态

PreRL 在前 150 步表现与标准 RL 相当,之后经历显著性能崩溃。分解分析揭示:

相关概念