Files
myWiki/concepts/sft-early-stopping.md

56 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "SFT 早停策略 (SFT Early Stopping)"
created: 2026-06-03
updated: 2026-06-03
type: concept
tags: [SFT, early-stopping, LLM, fine-tuning, training]
sources:
- "[[zhang-reconciling-sft-interaction-2026]]"
---
# SFT 早停策略 (SFT Early Stopping)
## 传统早停 vs. 交互基早停
传统早停通常基于验证损失的变化,而 [[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 提出了一种**原则性的、基于交互的早停策略**。
## 核心原理
SFT 呈现清晰的 [[sft-denoising-stage|两阶段动力学]]
1. **去噪阶段**~1000 步):移除噪声交互 → SFT 唯一有效的阶段
2. **过拟合阶段**(后续):大量涌现噪声交互 → 不仅无效而且有害
因此,**当去噪阶段结束时,就是 SFT 的最优停止点**。
## 交互作为诊断信号
交互演变提供了传统损失曲线无法捕捉的细粒度信号:
| 信号 | 含义 |
|------|------|
| 被移除交互的数量/强度趋于饱和 | 去噪完成 |
| 新涌现交互的阶数急剧上升 | 进入过拟合阶段 |
| [[interaction-generalizability|γ]] 急剧下降 | 新交互不可靠 |
| [[uncancelled-interaction-effects|ρ]] 急剧下降 | 新交互的正负效应抵消 |
## 实践启示
1. **数据规模重估**:极少量样本(~1000 步)即可完成去噪——大规模 SFT 数据边际价值有限
2. **训练监控**:追踪交互演变而非仅看损失曲线
3. **自动化早停**:当交互移除趋于饱和时自动停止训练
> 这一发现挑战了"更大规模微调必然更好"的传统信念。
## 与现有早停方法的关系
- **验证损失早停**:是一个粗粒度的代理信号,可能滞后于交互层面的变化
- **交互基早停**:提供了更早、更原则性的停止信号
- 两者可以互补使用
## 相关概念
- [[sft-denoising-stage|SFT 去噪阶段]]
- [[interaction-types-sft|SFT 中的三类交互]]
- [[supervised-fine-tuning|监督微调]]
- [[interaction-generalizability|交互泛化性]]