Files
myWiki/papers/gan-bifurcation-eos.md

74 lines
3.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability"
created: 2026-06-23
updated: 2026-06-23
type: paper
arxiv: "2606.15551v1"
category: cs.LG
author: "Eric Gan"
venue: Preprint
tags: [EoS, bifurcation-theory, gradient-descent, optimization, overparameterization, loss-landscape]
---
# 分岔理论框架下的梯度下降稳定边缘分析
> Eric Gan, arXiv:2606.15551v1, 2026
## 摘要
Edge of Stability (EoS) —— 梯度下降在 sharpness 超过经典收敛阈值 2/η 时仍能稳定训练 —— 是深度学习中最重要但理论理解不足的现象之一。本文发展了一个**分岔理论框架**,直接适用于过参数化神经网络:将训练动力学沿极小值流形 M 分解为法向和切向分量,揭示 EoS 稳定性源自法向的 **flip 分岔**(由第一 Lyapunov 系数 c₁ 控制),同时切向动力学向 sharpness 递减方向漂移。在温和的谱和几何假设下,证明了在 EoS 阈值处(η = 2/λ_max(x*))收敛到极小值流形。
## 核心问题
以往严格的 EoS 分析Zhu et al., Wang et al., Song & Yun, Gan 2026局限于低维、结构特殊的损失函数无法捕捉现代神经网络训练的几何复杂性。本文直面过参数化网络的核心特征——[[manifold-of-minimizers|极小值流形]](连续全局极小集)带来的 Hessian 秩亏。
## 方法论:法向-切向分解
在极小值流形 M 上的任意点 x* 处:
1. **法向动力学**:经历 [[flip-bifurcation|flip 分岔]]Jacobian 临界特征值 λ = -1稳定性由 [[first-lyapunov-coefficient|第一 Lyapunov 系数 c₁]] 决定
- c₁ > 0 → 超临界分岔 → 存在稳定周期-2 轨道
- c₁ < 0 亚临界分岔 发散
2. **切向动力学**两步迭代沿 M 漂移方向为 **sharpness 梯度** 的反方向
```
Π_T(f(f(x)) - x*) = -η p² Π_T ∇³L(x*)[v_max]²
```
这意味着 [[sharpness]] 沿训练**单调递减**
借助 [[center-manifold-theorem|中心流形定理]]高维动力学可约化到低维临界子空间
## 核心结论Theorem 4.4
在以下条件下对所有 x* M
1. **c₁(x*) > 0**超临界分岔 —— 早期实证表明 MLP 满足此条件
2. **Π_T ∇³L(x*)[v_max]² ≠ 0**切向漂移非退化
梯度下降以 η = 2/λ_max(x*) x* 的邻域初始化时**收敛到极小值流形 M**。
## 与乘积稳定性的统一
本文的第 5 节证明 [[product-stability|Gan (2026) 乘积稳定性]] 是本框架的特例对于 L(x,y) = f(xy) 形式的损失第一 Lyapunov 系数 c α_f = 3(f⁽³⁾)² - f⁽⁴⁾·f'' 主导这建立了极简标量分析与一般分岔框架之间的直接桥梁
## 开放问题
- 为什么实际网络的极小值处 c > 0尚无第一性原理解释
- Progressive Sharpening 的底层机制仍待解决
- SGD 噪声下的推广
## 相关概念
- [[edge-of-stability|Edge of Stability]]
- [[flip-bifurcation|Flip 分岔]]
- [[first-lyapunov-coefficient|第一 Lyapunov 系数]]
- [[manifold-of-minimizers|极小值流形]]
- [[normal-tangent-decomposition|法向-切向分解]]
- [[sharpness|Sharpness]]
- [[product-stability|乘积稳定性]]
- [[center-manifold-theorem|中心流形定理]]
## 来源
[arXiv:2606.15551](https://arxiv.org/abs/2606.15551)
[原始存档](raw/papers/gan-bifurcation-eos-2026.md)