--- title: "Negative Sample Reinforcement (NSR)" created: 2026-05-18 type: concept tags: ["reinforcement-learning", "LLM", "GRPO", "reasoning"] sources: ["https://arxiv.org/abs/2604.14142"] --- # Negative Sample Reinforcement (NSR) ## 定义 NSR 是 RL 中针对**负样本**(获得负 advantage 的样本)进行强化的机制:通过最小化 log π(y|x) 来**抑制**错误推理轨迹。在预训练空间 P(y) 中,NSR 展现出远超 [[positive-sample-reinforcement|PSR]] 的效果。 ## 核心发现 ### NSR-PreRL 的效果 1. **剪枝错误路径**:有效消除 universal incorrect patterns 2. **激发内生推理**:transition thoughts **14.89×**,reflection thoughts **6.54×** 3. **样本效率**:仅需 20 步 NSR-PreRL 即达到标准 RL 需要 60+ 步的精度(AMC23: 86%) 4. **双刃剑**:过度 NSR 会导致输出过长,阻碍后续训练 ### 与 NSR-RL 的对比 | 方法 | Avg@32 (Qwen3-4B) | |------|-------------------| | Vanilla | 41.26 | | GRPO | 55.79 | | NSR-RL Warmup | 54.38 | | **NSR-PreRL Warmup (DSRL)** | **57.54** | NSR-RL 在 post-train 空间的 warmup 甚至**低于** GRPO 基线,证明 NSR 的效力依赖于在预训练空间中操作。 ## 机制解释 - 在预训练空间中,NSR 重新分配概率质量——从错误轨迹转移到正确推理方向 - 这种概率重新分配保留了探索能力(不同于直接锐化条件分布) - NSR-PreRL 提供的初始化使后续 RL 可以专注于问题特定的细粒度优化 ## 相关概念 - [[positive-sample-reinforcement|PSR]] — 正样本强化的退化问题 - [[pre-train-space-reinforcement-learning|PreRL]] - [[dual-space-rl|DSRL]] - [[endogenous-reasoning|内生推理]]