91 lines
4.2 KiB
Markdown
91 lines
4.2 KiB
Markdown
---
|
||
title: "Fisher Width: 统计流形上的几何复杂度度量"
|
||
created: 2026-06-23
|
||
updated: 2026-06-23
|
||
type: paper
|
||
tags: ["information-geometry", "complexity-measure", "generalization-theory", "riemannian-geometry"]
|
||
authors: ["Vu Khac Ky"]
|
||
venue: "arXiv"
|
||
year: 2026
|
||
arxiv: "2606.18306"
|
||
sources: ["https://arxiv.org/abs/2606.18306v1"]
|
||
---
|
||
|
||
# Fisher Width: 统计流形上的几何复杂度度量
|
||
|
||
> Vu Khac Ky (FPT University, Vietnam) — arXiv:2606.18306, 2026
|
||
|
||
## 核心问题
|
||
|
||
[[gaussian-width|Gaussian width]] 是压缩感知、凸优化、学习理论中的核心复杂度度量——它通过随机方向上的平均投影来量化集合的"有效维度"。但 Gaussian width **本质上是欧几里得的**,它假设所有方向等权。然而,统计模型(指数族、神经网络、VAE)天然携带 [[fisher-information-metric|Fisher 信息度量]] 诱导的黎曼几何——不同方向上的参数变化对统计可区分性的影响截然不同。
|
||
|
||
**Fisher width** 是 Gaussian width 在[[statistical-manifold|统计流形]]上的 Fisher-几何对应物。
|
||
|
||
## 方法论贡献
|
||
|
||
### 1. Fisher Width 定义
|
||
|
||
在参数点 θ₀ 处,Fisher width 将欧几里得恒等矩阵替换为局部 Fisher 度量张量 G(θ₀)^{1/2}:
|
||
|
||
```
|
||
w_G(T; θ₀) = E_{g∼N(0,I_d)} [sup_{v∈T} ⟨g, G(θ₀)^{1/2} v⟩]
|
||
```
|
||
|
||
核心的 [[lifting-identity|Lifting Identity]]:
|
||
|
||
```
|
||
w_G(T; θ₀) = w(G(θ₀)^{1/2} T)
|
||
```
|
||
|
||
这意味着:在固定基点,Fisher width **恰好是 Fisher 重标度后集合的 Gaussian width**。Gaussian width 的所有经典性质可通过局部度量变形转移到 Fisher 设定中。
|
||
|
||
### 2. 结构理论
|
||
|
||
- **浓度不等式**:Fisher width 在随机采样下集中
|
||
- **度量扰动稳定性**:Fisher width 对局部度量变化具有 Lipschitz 连续性
|
||
- **谱比较界**:λ_min(G)^{1/2}·w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2}·w(T)
|
||
- **经验 Fisher 稳定性**:当经验 Fisher 矩阵在算子范数下集中时,Fisher width 可被一致估计
|
||
|
||
### 3. 泛化界
|
||
|
||
对 [[fisher-lipschitz|Fisher-Lipschitz]] 假设类,一致偏差被以下量控制:
|
||
|
||
```
|
||
w_G(T−T; θ₀) / √n
|
||
```
|
||
|
||
对局部指数族似然模型,该界在常数意义下是**紧的**。Fisher width 在 Fisher-几何学习界中扮演的角色,与 Gaussian width/Rademacher 复杂度在欧几里得设定中的角色完全相同。
|
||
|
||
### 4. 计算估计
|
||
|
||
- **全经验 Fisher 估计器**:用样本分数构建经验 Fisher 矩阵,计算重标度后集合的宽度
|
||
- **低秩近似**:利用 Fisher 谱的快速衰减性质做截断 SVD
|
||
- **分数范数估计器**:针对欧几里得球的特化高效版本
|
||
- **MNIST 验证**:在逻辑回归、softmax 回归、岭回归上评估精度和稳定性
|
||
|
||
## 关键发现
|
||
|
||
1. **Fisher 曲率效应**:同一欧几里得集合在不同参数位置的 Fisher width 可显著不同——Fisher width 不仅能测量集合形状,还能测量该形状在 Fisher 几何下"被看到"的方式
|
||
2. **各向异性检测**:Fisher width 捕获了欧几里得度量不可见的各向异性几何效应
|
||
3. **与 Gaussian width 的谱关系**:λ_min(G)^{1/2}·w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2}·w(T),表明 Fisher 度量的条件数决定了 Fisher width 与 Gaussian width 的偏差范围
|
||
4. **计算可行性**:低秩近似在实践中高度准确,Fisher 谱的快速衰减使估计器高效
|
||
|
||
## 与现有工作的关系
|
||
|
||
- **Fisher-Rao Norm** (Liang et al., 2019):衡量**单个参数向量**的 Fisher 长度;Fisher width 衡量**整个集合**的 Fisher-几何大小
|
||
- **自然梯度**:优化算法利用 Fisher 度量改进下降方向;Fisher width 则利用 Fisher 度量定义复杂度泛函
|
||
- **PAC-Bayes**:以概率距离度量复杂度;Fisher width 以集合的几何大小度量复杂度
|
||
|
||
## 参考
|
||
|
||
- [原始存档](raw/papers/vu-fisher-width-2026.md)
|
||
- [[gaussian-width|Gaussian Width]]
|
||
- [[statistical-manifold|Statistical Manifold]]
|
||
- [[fisher-information-metric|Fisher Information Metric]]
|
||
- [[information-geometry|Information Geometry]]
|
||
- [[fisher-lipschitz|Fisher-Lipschitz]]
|
||
- [[lifting-identity|Lifting Identity]]
|
||
- [[empirical-fisher|Empirical Fisher]]
|
||
- [[generalization-bounds|Generalization Bounds]]
|
||
- [[natural-gradient-descent|Natural Gradient Descent]]
|