SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.7 KiB

Raw Blame History

title, created, type, tags, sources

title

created

type

tags

sources

Negative Sample Reinforcement (NSR)

2026-05-18

concept

reinforcement-learning

LLM

GRPO

reasoning

https://arxiv.org/abs/2604.14142

Negative Sample Reinforcement (NSR)

定义

NSR 是 RL 中针对负样本（获得负 advantage 的样本）进行强化的机制：通过最小化 log π(y|x) 来抑制错误推理轨迹。在预训练空间 P(y) 中，NSR 展现出远超 positive-sample-reinforcement 的效果。

核心发现

NSR-PreRL 的效果

剪枝错误路径：有效消除 universal incorrect patterns
激发内生推理：transition thoughts 14.89×，reflection thoughts 6.54×
样本效率：仅需 20 步 NSR-PreRL 即达到标准 RL 需要 60+ 步的精度（AMC23: 86%）
双刃剑：过度 NSR 会导致输出过长，阻碍后续训练

与 NSR-RL 的对比

方法	Avg@32 (Qwen3-4B)
Vanilla	41.26
GRPO	55.79
NSR-RL Warmup	54.38
NSR-PreRL Warmup (DSRL)	57.54

NSR-RL 在 post-train 空间的 warmup 甚至低于 GRPO 基线，证明 NSR 的效力依赖于在预训练空间中操作。

机制解释

在预训练空间中，NSR 重新分配概率质量——从错误轨迹转移到正确推理方向
这种概率重新分配保留了探索能力（不同于直接锐化条件分布）
NSR-PreRL 提供的初始化使后续 RL 可以专注于问题特定的细粒度优化

相关概念

positive-sample-reinforcement — 正样本强化的退化问题
pre-train-space-reinforcement-learning
dual-space-rl
endogenous-reasoning