Files
myWiki/papers/gan-bifurcation-eos.md

3.3 KiB
Raw Blame History

title, created, updated, type, arxiv, category, author, venue, tags
title created updated type arxiv category author venue tags
A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability 2026-06-23 2026-06-23 paper 2606.15551v1 cs.LG Eric Gan Preprint
EoS
bifurcation-theory
gradient-descent
optimization
overparameterization
loss-landscape

分岔理论框架下的梯度下降稳定边缘分析

Eric Gan, arXiv:2606.15551v1, 2026

摘要

Edge of Stability (EoS) —— 梯度下降在 sharpness 超过经典收敛阈值 2/η 时仍能稳定训练 —— 是深度学习中最重要但理论理解不足的现象之一。本文发展了一个分岔理论框架,直接适用于过参数化神经网络:将训练动力学沿极小值流形 M 分解为法向和切向分量,揭示 EoS 稳定性源自法向的 flip 分岔(由第一 Lyapunov 系数 c₁ 控制),同时切向动力学向 sharpness 递减方向漂移。在温和的谱和几何假设下,证明了在 EoS 阈值处(η = 2/λ_max(x*))收敛到极小值流形。

核心问题

以往严格的 EoS 分析Zhu et al., Wang et al., Song & Yun, Gan 2026局限于低维、结构特殊的损失函数无法捕捉现代神经网络训练的几何复杂性。本文直面过参数化网络的核心特征——manifold-of-minimizers(连续全局极小集)带来的 Hessian 秩亏。

方法论:法向-切向分解

在极小值流形 M 上的任意点 x* 处:

  1. 法向动力学:经历 flip-bifurcationJacobian 临界特征值 λ = -1稳定性由 first-lyapunov-coefficient 决定

    • c₁ > 0 → 超临界分岔 → 存在稳定周期-2 轨道
    • c₁ < 0 → 亚临界分岔 → 发散
  2. 切向动力学:两步迭代沿 M 漂移,方向为 sharpness 梯度 的反方向:

    Π_T(f(f(x)) - x*) = -η p² Π_T ∇³L(x*)[v_max]²
    

    这意味着 sharpness 沿训练单调递减

借助 center-manifold-theorem,高维动力学可约化到低维临界子空间。

核心结论Theorem 4.4

在以下条件下(对所有 x* ∈ M

  1. c₁(x) > 0*(超临界分岔 —— 早期实证表明 MLP 满足此条件)
  2. Π_T ∇³L(x)[v_max]² ≠ 0*(切向漂移非退化)

梯度下降以 η = 2/λ_max(x*) 从 x* 的邻域初始化时,收敛到极小值流形 M

与乘积稳定性的统一

本文的第 5 节证明 product-stability 是本框架的特例:对于 L(x,y) = f(xy) 形式的损失,第一 Lyapunov 系数 c₁ 由 α_f = 3(f⁽³⁾)² - f⁽⁴⁾·f'' 主导。这建立了极简标量分析与一般分岔框架之间的直接桥梁。

开放问题

  • 为什么实际网络的极小值处 c₁ > 0尚无第一性原理解释
  • Progressive Sharpening 的底层机制仍待解决
  • SGD 噪声下的推广

相关概念

来源

arXiv:2606.15551 原始存档