title, created, type, tags, sources
| title |
created |
type |
tags |
sources |
| Negative Sample Reinforcement (NSR) |
2026-05-18 |
concept |
| reinforcement-learning |
| LLM |
| GRPO |
| reasoning |
|
|
Negative Sample Reinforcement (NSR)
定义
NSR 是 RL 中针对负样本(获得负 advantage 的样本)进行强化的机制:通过最小化 log π(y|x) 来抑制错误推理轨迹。在预训练空间 P(y) 中,NSR 展现出远超 positive-sample-reinforcement 的效果。
核心发现
NSR-PreRL 的效果
- 剪枝错误路径:有效消除 universal incorrect patterns
- 激发内生推理:transition thoughts 14.89×,reflection thoughts 6.54×
- 样本效率:仅需 20 步 NSR-PreRL 即达到标准 RL 需要 60+ 步的精度(AMC23: 86%)
- 双刃剑:过度 NSR 会导致输出过长,阻碍后续训练
与 NSR-RL 的对比
| 方法 |
Avg@32 (Qwen3-4B) |
| Vanilla |
41.26 |
| GRPO |
55.79 |
| NSR-RL Warmup |
54.38 |
| NSR-PreRL Warmup (DSRL) |
57.54 |
NSR-RL 在 post-train 空间的 warmup 甚至低于 GRPO 基线,证明 NSR 的效力依赖于在预训练空间中操作。
机制解释
- 在预训练空间中,NSR 重新分配概率质量——从错误轨迹转移到正确推理方向
- 这种概率重新分配保留了探索能力(不同于直接锐化条件分布)
- NSR-PreRL 提供的初始化使后续 RL 可以专注于问题特定的细粒度优化
相关概念