Endogenous Reasoning（内生推理）

定义

内生推理指模型自发性产生的推理行为，而非通过外部监督信号或精心设计的 prompt 模板所诱导。NSR-PreRL 被证明能显著激发这种内生推理能力。

在仅 20 步 NSR-PreRL 训练后（Qwen3-4B, AMC23）：

标准 GRPO（25 步后）在激发内生推理方面明显弱于 NSR-PreRL（仅 20 步），说明：

NSR-PreRL 通过剪枝错误推理路径，间接解锁了模型在预训练阶段已编码但被条件约束抑制的内部知识。这与"预训练知识内部化"的理念一致：模型参数中已经存在推理能力，PreRL 只是去除了阻碍其表达的"噪音路径"。