2.0 KiB
2.0 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| SFT 早停策略 (SFT Early Stopping) | 2026-06-03 | 2026-06-03 | concept |
|
|
SFT 早停策略 (SFT Early Stopping)
传统早停 vs. 交互基早停
传统早停通常基于验证损失的变化,而 zhang-reconciling-sft-interaction-2026 提出了一种原则性的、基于交互的早停策略。
核心原理
SFT 呈现清晰的 sft-denoising-stage:
- 去噪阶段(~1000 步):移除噪声交互 → SFT 唯一有效的阶段
- 过拟合阶段(后续):大量涌现噪声交互 → 不仅无效而且有害
因此,当去噪阶段结束时,就是 SFT 的最优停止点。
交互作为诊断信号
交互演变提供了传统损失曲线无法捕捉的细粒度信号:
| 信号 | 含义 |
|---|---|
| 被移除交互的数量/强度趋于饱和 | 去噪完成 |
| 新涌现交互的阶数急剧上升 | 进入过拟合阶段 |
| [[interaction-generalizability | γ]] 急剧下降 |
| [[uncancelled-interaction-effects | ρ]] 急剧下降 |
实践启示
- 数据规模重估:极少量样本(~1000 步)即可完成去噪——大规模 SFT 数据边际价值有限
- 训练监控:追踪交互演变而非仅看损失曲线
- 自动化早停:当交互移除趋于饱和时自动停止训练
这一发现挑战了"更大规模微调必然更好"的传统信念。
与现有早停方法的关系
- 验证损失早停:是一个粗粒度的代理信号,可能滞后于交互层面的变化
- 交互基早停:提供了更早、更原则性的停止信号
- 两者可以互补使用