Files
myWiki/concepts/positive-sample-reinforcement.md
2026-06-01 10:46:01 +08:00

1.5 KiB
Raw Blame History

title, created, type, tags, sources
title created type tags sources
Positive Sample Reinforcement (PSR) 2026-05-18 concept
reinforcement-learning
LLM
GRPO
https://arxiv.org/abs/2604.14142

Positive Sample Reinforcement (PSR)

定义

PSR 是 RL 中针对正样本(获得正 advantage 的样本)进行强化的机制:通过最大化 log π(y|x) 来鼓励正确的推理轨迹。

PreRL 中的退化

虽然 PSR 和 negative-sample-reinforcement 的梯度方向对齐(都指向提升条件策略),但在预训练空间 P(y) 中:

  • PSR-PreRL 无法有效学习 self-generated on-policy trajectories
  • 尽管能增加 π_θ(y|x) 的条件概率(验证了梯度协同效应),但最终导致性能退化
  • 对比QFFT 使用 teacher model 的 out-of-distribution long-CoT 轨迹成功优化了同一目标 max P(y)

关键教训

在预训练空间中最大化 P(y) 严格需要高质量、分布外的专家示范expert demonstrations。这是 on-policy RL 在预训练空间的根本性限制。

PSR vs NSR

维度 PSR-PreRL NSR-PreRL
学习效果 退化 极有效
推理激发 14.89× transitions
输出长度 正常 逐渐过长(双刃剑)
机制 累积概率质量 重新分配概率质量

相关概念