--- title: "SFT 早停策略 (SFT Early Stopping)" created: 2026-06-03 updated: 2026-06-03 type: concept tags: [SFT, early-stopping, LLM, fine-tuning, training] sources: - "[[zhang-reconciling-sft-interaction-2026]]" --- # SFT 早停策略 (SFT Early Stopping) ## 传统早停 vs. 交互基早停 传统早停通常基于验证损失的变化,而 [[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 提出了一种**原则性的、基于交互的早停策略**。 ## 核心原理 SFT 呈现清晰的 [[sft-denoising-stage|两阶段动力学]]: 1. **去噪阶段**(~1000 步):移除噪声交互 → SFT 唯一有效的阶段 2. **过拟合阶段**(后续):大量涌现噪声交互 → 不仅无效而且有害 因此,**当去噪阶段结束时,就是 SFT 的最优停止点**。 ## 交互作为诊断信号 交互演变提供了传统损失曲线无法捕捉的细粒度信号: | 信号 | 含义 | |------|------| | 被移除交互的数量/强度趋于饱和 | 去噪完成 | | 新涌现交互的阶数急剧上升 | 进入过拟合阶段 | | [[interaction-generalizability|γ]] 急剧下降 | 新交互不可靠 | | [[uncancelled-interaction-effects|ρ]] 急剧下降 | 新交互的正负效应抵消 | ## 实践启示 1. **数据规模重估**:极少量样本(~1000 步)即可完成去噪——大规模 SFT 数据边际价值有限 2. **训练监控**:追踪交互演变而非仅看损失曲线 3. **自动化早停**:当交互移除趋于饱和时自动停止训练 > 这一发现挑战了"更大规模微调必然更好"的传统信念。 ## 与现有早停方法的关系 - **验证损失早停**:是一个粗粒度的代理信号,可能滞后于交互层面的变化 - **交互基早停**:提供了更早、更原则性的停止信号 - 两者可以互补使用 ## 相关概念 - [[sft-denoising-stage|SFT 去噪阶段]] - [[interaction-types-sft|SFT 中的三类交互]] - [[supervised-fine-tuning|监督微调]] - [[interaction-generalizability|交互泛化性]]