Files
myWiki/concepts/pre-train-space-reinforcement-learning.md
2026-06-01 10:46:01 +08:00

47 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Pre-train Space Reinforcement Learning (PreRL)"
created: 2026-05-18
type: concept
tags: ["reinforcement-learning", "LLM", "pre-training", "GRPO"]
sources: ["https://arxiv.org/abs/2604.14142"]
---
# Pre-train Space Reinforcement Learning (PreRL)
## 定义
PreRL 是一种新的 RL 范式,直接在 **预训练空间** 中优化 LLM 的边缘分布 P(y),而非传统的条件分布 P(y|x)。在梯度更新时,**遮蔽输入条件 x**,使模型学习与问题无关的通用推理能力。
## 核心机制
### 与标准 RL 的对比
| 维度 | Post-train Space RL | Pre-train Space RL |
|------|-------------------|-------------------|
| 优化目标 | P(y\|x) | P(y) |
| 梯度 | ∇log π(y\|x) · R | ∇log π(y) · R |
| 条件依赖 | 保留输入 x | 遮蔽输入 x |
| 探索空间 | 条件约束的 | 无条件扩展的 |
### 理论合理性
基于 [[shared-parameter-influence|共享参数影响]]:模型参数 θ 同时控制 P(y) 和 P(y|x)。一阶泰勒展开证明,当 [[gradient-alignment|梯度对齐]] 条件满足时⟨∇log P(y), ∇log P(y|x)⟩ ≥ 0优化 P(y) 自然带动 P(y|x) 的改善。
### 与传统预训练的区别
- **传统预训练**:被动学习,静态语料 + NTP
- **PreRL**:主动学习,在线 rollout + verifiable rewards
- PreRL 只更新 response y不更新输入 x 部分
## 训练动态
PreRL 在前 150 步表现与标准 RL 相当,之后经历显著性能崩溃。分解分析揭示:
- [[positive-sample-reinforcement|PSR-PreRL]] 导致 on-policy collapse
- [[negative-sample-reinforcement|NSR-PreRL]] 是真正的有效驱动力
## 相关概念
- [[dual-space-rl|Dual Space RL (DSRL)]] — PreRL → RL 的策略转生框架
- [[post-train-space-rl|Post-train Space RL]] — 传统 RLVR
- [[endogenous-reasoning|内生推理]] — NSR-PreRL 激发的推理行为