4.2 KiB
4.2 KiB
title, created, updated, type, tags, authors, venue, year, arxiv, sources
| title | created | updated | type | tags | authors | venue | year | arxiv | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Fisher Width: 统计流形上的几何复杂度度量 | 2026-06-23 | 2026-06-23 | paper |
|
|
arXiv | 2026 | 2606.18306 |
|
Fisher Width: 统计流形上的几何复杂度度量
Vu Khac Ky (FPT University, Vietnam) — arXiv:2606.18306, 2026
核心问题
gaussian-width 是压缩感知、凸优化、学习理论中的核心复杂度度量——它通过随机方向上的平均投影来量化集合的"有效维度"。但 Gaussian width 本质上是欧几里得的,它假设所有方向等权。然而,统计模型(指数族、神经网络、VAE)天然携带 fisher-information-metric 诱导的黎曼几何——不同方向上的参数变化对统计可区分性的影响截然不同。
Fisher width 是 Gaussian width 在statistical-manifold上的 Fisher-几何对应物。
方法论贡献
1. Fisher Width 定义
在参数点 θ₀ 处,Fisher width 将欧几里得恒等矩阵替换为局部 Fisher 度量张量 G(θ₀)^{1/2}:
w_G(T; θ₀) = E_{g∼N(0,I_d)} [sup_{v∈T} ⟨g, G(θ₀)^{1/2} v⟩]
核心的 lifting-identity:
w_G(T; θ₀) = w(G(θ₀)^{1/2} T)
这意味着:在固定基点,Fisher width 恰好是 Fisher 重标度后集合的 Gaussian width。Gaussian width 的所有经典性质可通过局部度量变形转移到 Fisher 设定中。
2. 结构理论
- 浓度不等式:Fisher width 在随机采样下集中
- 度量扰动稳定性:Fisher width 对局部度量变化具有 Lipschitz 连续性
- 谱比较界:λ_min(G)^{1/2}·w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2}·w(T)
- 经验 Fisher 稳定性:当经验 Fisher 矩阵在算子范数下集中时,Fisher width 可被一致估计
3. 泛化界
对 fisher-lipschitz 假设类,一致偏差被以下量控制:
w_G(T−T; θ₀) / √n
对局部指数族似然模型,该界在常数意义下是紧的。Fisher width 在 Fisher-几何学习界中扮演的角色,与 Gaussian width/Rademacher 复杂度在欧几里得设定中的角色完全相同。
4. 计算估计
- 全经验 Fisher 估计器:用样本分数构建经验 Fisher 矩阵,计算重标度后集合的宽度
- 低秩近似:利用 Fisher 谱的快速衰减性质做截断 SVD
- 分数范数估计器:针对欧几里得球的特化高效版本
- MNIST 验证:在逻辑回归、softmax 回归、岭回归上评估精度和稳定性
关键发现
- Fisher 曲率效应:同一欧几里得集合在不同参数位置的 Fisher width 可显著不同——Fisher width 不仅能测量集合形状,还能测量该形状在 Fisher 几何下"被看到"的方式
- 各向异性检测:Fisher width 捕获了欧几里得度量不可见的各向异性几何效应
- 与 Gaussian width 的谱关系:λ_min(G)^{1/2}·w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2}·w(T),表明 Fisher 度量的条件数决定了 Fisher width 与 Gaussian width 的偏差范围
- 计算可行性:低秩近似在实践中高度准确,Fisher 谱的快速衰减使估计器高效
与现有工作的关系
- Fisher-Rao Norm (Liang et al., 2019):衡量单个参数向量的 Fisher 长度;Fisher width 衡量整个集合的 Fisher-几何大小
- 自然梯度:优化算法利用 Fisher 度量改进下降方向;Fisher width 则利用 Fisher 度量定义复杂度泛函
- PAC-Bayes:以概率距离度量复杂度;Fisher width 以集合的几何大小度量复杂度