20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

View File

@@ -0,0 +1,73 @@
---
title: "A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability"
created: 2026-06-23
updated: 2026-06-23
type: paper
arxiv: "2606.15551v1"
category: cs.LG
author: "Eric Gan"
venue: Preprint
tags: [EoS, bifurcation-theory, gradient-descent, optimization, overparameterization, loss-landscape]
---
# 分岔理论框架下的梯度下降稳定边缘分析
> Eric Gan, arXiv:2606.15551v1, 2026
## 摘要
Edge of Stability (EoS) —— 梯度下降在 sharpness 超过经典收敛阈值 2/η 时仍能稳定训练 —— 是深度学习中最重要但理论理解不足的现象之一。本文发展了一个**分岔理论框架**,直接适用于过参数化神经网络:将训练动力学沿极小值流形 M 分解为法向和切向分量,揭示 EoS 稳定性源自法向的 **flip 分岔**(由第一 Lyapunov 系数 c₁ 控制),同时切向动力学向 sharpness 递减方向漂移。在温和的谱和几何假设下,证明了在 EoS 阈值处(η = 2/λ_max(x*))收敛到极小值流形。
## 核心问题
以往严格的 EoS 分析Zhu et al., Wang et al., Song & Yun, Gan 2026局限于低维、结构特殊的损失函数无法捕捉现代神经网络训练的几何复杂性。本文直面过参数化网络的核心特征——[[manifold-of-minimizers|极小值流形]](连续全局极小集)带来的 Hessian 秩亏。
## 方法论:法向-切向分解
在极小值流形 M 上的任意点 x* 处:
1. **法向动力学**:经历 [[flip-bifurcation|flip 分岔]]Jacobian 临界特征值 λ = -1稳定性由 [[first-lyapunov-coefficient|第一 Lyapunov 系数 c₁]] 决定
- c₁ > 0 → 超临界分岔 → 存在稳定周期-2 轨道
- c₁ < 0 亚临界分岔 发散
2. **切向动力学**两步迭代沿 M 漂移方向为 **sharpness 梯度** 的反方向
```
Π_T(f(f(x)) - x*) = -η p² Π_T ∇³L(x*)[v_max]²
```
这意味着 [[sharpness]] 沿训练**单调递减**
借助 [[center-manifold-theorem|中心流形定理]]高维动力学可约化到低维临界子空间
## 核心结论Theorem 4.4
在以下条件下对所有 x* M
1. **c₁(x*) > 0**超临界分岔 —— 早期实证表明 MLP 满足此条件
2. **Π_T ∇³L(x*)[v_max]² ≠ 0**切向漂移非退化
梯度下降以 η = 2/λ_max(x*) x* 的邻域初始化时**收敛到极小值流形 M**。
## 与乘积稳定性的统一
本文的第 5 节证明 [[product-stability|Gan (2026) 乘积稳定性]] 是本框架的特例对于 L(x,y) = f(xy) 形式的损失第一 Lyapunov 系数 c α_f = 3(f⁽³⁾)² - f⁽⁴⁾·f'' 主导这建立了极简标量分析与一般分岔框架之间的直接桥梁
## 开放问题
- 为什么实际网络的极小值处 c > 0尚无第一性原理解释
- Progressive Sharpening 的底层机制仍待解决
- SGD 噪声下的推广
## 相关概念
- [[edge-of-stability|Edge of Stability]]
- [[flip-bifurcation|Flip 分岔]]
- [[first-lyapunov-coefficient|第一 Lyapunov 系数]]
- [[manifold-of-minimizers|极小值流形]]
- [[normal-tangent-decomposition|法向-切向分解]]
- [[sharpness|Sharpness]]
- [[product-stability|乘积稳定性]]
- [[center-manifold-theorem|中心流形定理]]
## 来源
[arXiv:2606.15551](https://arxiv.org/abs/2606.15551)
[原始存档](raw/papers/gan-bifurcation-eos-2026.md)