1.8 KiB
1.8 KiB
title, created, type, tags, sources
| title | created | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|
| Pre-train Space Reinforcement Learning (PreRL) | 2026-05-18 | concept |
|
|
Pre-train Space Reinforcement Learning (PreRL)
定义
PreRL 是一种新的 RL 范式,直接在 预训练空间 中优化 LLM 的边缘分布 P(y),而非传统的条件分布 P(y|x)。在梯度更新时,遮蔽输入条件 x,使模型学习与问题无关的通用推理能力。
核心机制
与标准 RL 的对比
| 维度 | Post-train Space RL | Pre-train Space RL |
|---|---|---|
| 优化目标 | P(y|x) | P(y) |
| 梯度 | ∇log π(y|x) · R | ∇log π(y) · R |
| 条件依赖 | 保留输入 x | 遮蔽输入 x |
| 探索空间 | 条件约束的 | 无条件扩展的 |
理论合理性
基于 shared-parameter-influence:模型参数 θ 同时控制 P(y) 和 P(y|x)。一阶泰勒展开证明,当 gradient-alignment 条件满足时(⟨∇log P(y), ∇log P(y|x)⟩ ≥ 0),优化 P(y) 自然带动 P(y|x) 的改善。
与传统预训练的区别
- 传统预训练:被动学习,静态语料 + NTP
- PreRL:主动学习,在线 rollout + verifiable rewards
- PreRL 只更新 response y,不更新输入 x 部分
训练动态
PreRL 在前 150 步表现与标准 RL 相当,之后经历显著性能崩溃。分解分析揭示:
- positive-sample-reinforcement 导致 on-policy collapse
- negative-sample-reinforcement 是真正的有效驱动力
相关概念
- dual-space-rl — PreRL → RL 的策略转生框架
- post-train-space-rl — 传统 RLVR
- endogenous-reasoning — NSR-PreRL 激发的推理行为