2.2 KiB
2.2 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Edge of Stability (EoS) | 2026-06-23 | 2026-06-23 | concept |
|
|
Edge of Stability (EoS)
Edge of Stability (EoS) 是深度学习中梯度下降训练的一个反直觉现象:模型在 sharpness λ 超过经典收敛阈值 2/η 的情况下仍能稳定训练,loss 非单调但长期下降。该现象由 Cohen et al. (2022) 首次系统实证记录。
核心机制
经典梯度下降分析要求学习率 η 与 sharpness λ(Hessian 最大特征值)满足 ηλ < 2 才能保证收敛。但在实践中,深度网络训练时 sharpness 会上升至超过该阈值,loss 出现振荡,却仍能长期收敛。这种"在稳定边缘运行"的行为无法用经典凸优化理论解释。
EoS 的典型动力学阶段:
- 渐进锐化 (Progressive Sharpening):训练初期 sharpness 单调上升,穿过 2/η 阈值进入 EoS 状态
- 自稳定 (Self-Stabilization):sharpness 在阈值附近振荡,loss 非单调但呈下降趋势
- 最终收敛:sharpness 回落至阈值以下,迭代收敛到极小值流形
理论解释谱系
- 三阶自稳定 (Damian et al., 2023):loss Taylor 展开的三阶项贡献 sharpness 自稳定
- 多尺度损失结构 (Ma et al., 2022):次二次性质阻止发散
- 极简分析 (Zhu et al., Wang et al., Song & Yun, Gan 2026):在低维结构化损失上严格证明 EoS 收敛
- 分岔理论框架 (Gan 2026b, gan-bifurcation-eos):将 EoS 稳定性归结为 flip 分岔的 Lyapunov 系数符号
与过参数化的关联
过参数化网络存在 manifold-of-minimizers,Hessian 秩亏。EoS 动力学可分解为流形法向的周期振荡和切向的 sharpness 下降漂移——两者的协同作用产生收敛。
参考
- Cohen et al. (2022). Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability.
- Damian et al. (2023). Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of Stability.
- gan-bifurcation-eos
- product-stability
- flip-bifurcation
- first-lyapunov-coefficient