SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.0 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

SFT 早停策略 (SFT Early Stopping)

2026-06-03

2026-06-03

concept

SFT

early-stopping

LLM

fine-tuning

training

zhang-reconciling-sft-interaction-2026

SFT 早停策略 (SFT Early Stopping)

传统早停 vs. 交互基早停

传统早停通常基于验证损失的变化，而 zhang-reconciling-sft-interaction-2026 提出了一种原则性的、基于交互的早停策略。

核心原理

SFT 呈现清晰的 sft-denoising-stage：

去噪阶段（~1000 步）：移除噪声交互 → SFT 唯一有效的阶段
过拟合阶段（后续）：大量涌现噪声交互 → 不仅无效而且有害

因此，当去噪阶段结束时，就是 SFT 的最优停止点。

交互作为诊断信号

交互演变提供了传统损失曲线无法捕捉的细粒度信号：

信号	含义
被移除交互的数量/强度趋于饱和	去噪完成
新涌现交互的阶数急剧上升	进入过拟合阶段
[[interaction-generalizability	γ]] 急剧下降
[[uncancelled-interaction-effects	ρ]] 急剧下降

实践启示

数据规模重估：极少量样本（~1000 步）即可完成去噪——大规模 SFT 数据边际价值有限
训练监控：追踪交互演变而非仅看损失曲线
自动化早停：当交互移除趋于饱和时自动停止训练

这一发现挑战了"更大规模微调必然更好"的传统信念。

与现有早停方法的关系

验证损失早停：是一个粗粒度的代理信号，可能滞后于交互层面的变化
交互基早停：提供了更早、更原则性的停止信号
两者可以互补使用

相关概念