2.1 KiB
2.1 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Empirical Fisher (经验 Fisher 信息) | 2026-06-23 | 2026-06-23 | concept |
|
|
Empirical Fisher (经验 Fisher 信息)
Empirical Fisher 是用样本数据近似总体 fisher-information-metric的计算方法,是 vu-fisher-width-2026 实际可计算性的关键。
定义
给定样本 {x_i}ⁿ_{i=1} ∼ p_θ,经验 Fisher 矩阵为:
Ĝ(θ) = (1/n) Σⁿ_{i=1} [∇_θ log p_θ(x_i) · ∇_θ log p_θ(x_i)^T]
这与总体 Fisher G(θ) = E_{x∼p_θ}[∇log p_θ · ∇log p_θ^T] 的区别在于用经验平均替代了期望。
与总体 Fisher 的异同
| 方面 | 经验 Fisher | 总体 Fisher |
|---|---|---|
| 计算 | 可计算(n 个样本) | 需解析或 Monte Carlo |
| 偏差 | 有限样本偏差 | 无偏(定义) |
| 梯度依赖性 | 与 Hessian 的关系取决于模型 | 在真实参数处 = 负期望 Hessian |
| 使用场景 | 自然梯度、K-FAC | 理论分析 |
在 Fisher Width 估计中的角色
Vu (2026) 的 Fisher width 估计器使用经验 Fisher:
- 全经验 Fisher 估计器:计算 Ĝ(θ)^{1/2},对集合做重标度后估计 Gaussian width
- 低秩近似:对 Ĝ(θ) 做截断 SVD,利用 Fisher 谱的快速衰减
- 分数范数估计器:针对特定集合(如欧几里得球)的高效特化
关键理论保证来自经验 Fisher 稳定性定理:当 ‖Ĝ−G‖_{op} → 0 时(在适当条件下以 O(1/√n) 速率),Fisher width 的经验估计一致收敛到总体值。
MNIST 上验证
- 逻辑回归 (d=784):低秩近似 k=20 已捕获 >95% 的 Fisher 迹
- Softmax 回归:Fisher 谱同样快速衰减
- 岭回归:估计器在不同正则化强度下稳定