Files
myWiki/concepts/negative-sample-reinforcement.md
2026-06-01 10:46:01 +08:00

47 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Negative Sample Reinforcement (NSR)"
created: 2026-05-18
type: concept
tags: ["reinforcement-learning", "LLM", "GRPO", "reasoning"]
sources: ["https://arxiv.org/abs/2604.14142"]
---
# Negative Sample Reinforcement (NSR)
## 定义
NSR 是 RL 中针对**负样本**(获得负 advantage 的样本)进行强化的机制:通过最小化 log π(y|x) 来**抑制**错误推理轨迹。在预训练空间 P(y) 中NSR 展现出远超 [[positive-sample-reinforcement|PSR]] 的效果。
## 核心发现
### NSR-PreRL 的效果
1. **剪枝错误路径**:有效消除 universal incorrect patterns
2. **激发内生推理**transition thoughts **14.89×**reflection thoughts **6.54×**
3. **样本效率**:仅需 20 步 NSR-PreRL 即达到标准 RL 需要 60+ 步的精度AMC23: 86%
4. **双刃剑**:过度 NSR 会导致输出过长,阻碍后续训练
### 与 NSR-RL 的对比
| 方法 | Avg@32 (Qwen3-4B) |
|------|-------------------|
| Vanilla | 41.26 |
| GRPO | 55.79 |
| NSR-RL Warmup | 54.38 |
| **NSR-PreRL Warmup (DSRL)** | **57.54** |
NSR-RL 在 post-train 空间的 warmup 甚至**低于** GRPO 基线,证明 NSR 的效力依赖于在预训练空间中操作。
## 机制解释
- 在预训练空间中NSR 重新分配概率质量——从错误轨迹转移到正确推理方向
- 这种概率重新分配保留了探索能力(不同于直接锐化条件分布)
- NSR-PreRL 提供的初始化使后续 RL 可以专注于问题特定的细粒度优化
## 相关概念
- [[positive-sample-reinforcement|PSR]] — 正样本强化的退化问题
- [[pre-train-space-reinforcement-learning|PreRL]]
- [[dual-space-rl|DSRL]]
- [[endogenous-reasoning|内生推理]]