myWiki/concepts/edge-of-stability.md

---
title: "Edge of Stability (EoS)"
created: 2026-06-23
updated: 2026-06-23
type: concept
tags: [optimization, gradient-descent, deep-learning, sharpness, bifurcation]
sources: [gan-bifurcation-eos]
---

# Edge of Stability (EoS)

Edge of Stability (EoS) 是深度学习中梯度下降训练的一个反直觉现象：模型在 **sharpness λ 超过经典收敛阈值 2/η** 的情况下仍能稳定训练，loss 非单调但长期下降。该现象由 Cohen et al. (2022) 首次系统实证记录。

## 核心机制

经典梯度下降分析要求学习率 η 与 sharpness λ（Hessian 最大特征值）满足 **ηλ < 2** 才能保证收敛。但在实践中，深度网络训练时 sharpness 会上升至超过该阈值，loss 出现振荡，却仍能长期收敛。这种"在稳定边缘运行"的行为无法用经典凸优化理论解释。

EoS 的典型动力学阶段：
1. **渐进锐化 (Progressive Sharpening)**：训练初期 sharpness 单调上升，穿过 2/η 阈值进入 EoS 状态
2. **自稳定 (Self-Stabilization)**：sharpness 在阈值附近振荡，loss 非单调但呈下降趋势
3. **最终收敛**：sharpness 回落至阈值以下，迭代收敛到极小值流形

## 理论解释谱系

- **三阶自稳定** (Damian et al., 2023)：loss Taylor 展开的三阶项贡献 sharpness 自稳定
- **多尺度损失结构** (Ma et al., 2022)：次二次性质阻止发散
- **极简分析** (Zhu et al., Wang et al., Song & Yun, Gan 2026)：在低维结构化损失上严格证明 EoS 收敛
- **分岔理论框架** (Gan 2026b, [[gan-bifurcation-eos|本文]])：将 EoS 稳定性归结为 flip 分岔的 Lyapunov 系数符号

## 与过参数化的关联

过参数化网络存在 [[manifold-of-minimizers|极小值流形]]，Hessian 秩亏。EoS 动力学可分解为流形法向的周期振荡和切向的 sharpness 下降漂移——两者的协同作用产生收敛。

## 参考

- Cohen et al. (2022). Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability.
- Damian et al. (2023). Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of Stability.
- [[gan-bifurcation-eos|Gan (2026b) — 分岔理论框架]]
- [[product-stability|Gan (2026) — 乘积稳定性]]
- [[flip-bifurcation]]
- [[first-lyapunov-coefficient]]