44 lines
1.5 KiB
Markdown
44 lines
1.5 KiB
Markdown
---
|
||
title: "Sharpness (锐度)"
|
||
created: 2026-06-23
|
||
updated: 2026-06-23
|
||
type: concept
|
||
tags: [optimization, hessian, EoS, gradient-descent, loss-landscape]
|
||
sources: [gan-bifurcation-eos]
|
||
---
|
||
|
||
# Sharpness (锐度)
|
||
|
||
Sharpness(锐度)定义为损失函数 Hessian ∇²L(x) 的**最大特征值** λ_max,是深度学习中 [[edge-of-stability|EoS]] 现象的核心量。
|
||
|
||
## 在 EoS 中的角色
|
||
|
||
经典梯度下降收敛要求 **η·λ_max < 2**("稳定边缘"以下)。EoS 训练的特征是:
|
||
- 渐进锐化阶段:λ_max 单调上升至超过 2/η
|
||
- 自稳定阶段:λ_max 在 2/η 附近振荡
|
||
- 退火阶段:λ_max 回落至阈值以下,训练收敛
|
||
|
||
## 关键性质
|
||
|
||
在 [[gan-bifurcation-eos|Gan (2026b)]] 的分岔框架中:
|
||
|
||
- **Sharpness 的梯度**:∇³L[v_max]² 是 λ_max 在参数空间中的梯度方向
|
||
- 切向漂移沿 **sharpness 递减**方向——这意味着 EoS 训练自然趋向更平坦的极小值
|
||
- sharpness 沿两步迭代严格递减(在 Theorem 4.4 的条件下),且仅在 M 上稳定
|
||
|
||
## 与泛化的关联
|
||
|
||
Flat minima hypothesis:sharpness 较低的极小值泛化更好。EoS 训练在切向空间中自动向低 sharpness 区域漂移,提供了一种隐式正则化机制。
|
||
|
||
## 相关概念
|
||
|
||
- Damian et al. (2023):三阶项贡献 sharpness 自稳定
|
||
- Cohen et al. (2022):EoS 的 sharpness 振荡实证
|
||
|
||
## 参考
|
||
|
||
- [[edge-of-stability]]
|
||
- [[gan-bifurcation-eos]]
|
||
- [[manifold-of-minimizers]]
|
||
- [[normal-tangent-decomposition]]
|