--- title: "Empirical Fisher (经验 Fisher 信息)" created: 2026-06-23 updated: 2026-06-23 type: concept tags: ["computation", "estimation", "fisher-metric", "information-geometry"] sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"] --- # Empirical Fisher (经验 Fisher 信息) **Empirical Fisher** 是用样本数据近似总体 [[fisher-information-metric|Fisher 信息度量]]的计算方法,是 [[vu-fisher-width-2026|Fisher Width]] 实际可计算性的关键。 ## 定义 给定样本 {x_i}ⁿ_{i=1} ∼ p_θ,经验 Fisher 矩阵为: ``` Ĝ(θ) = (1/n) Σⁿ_{i=1} [∇_θ log p_θ(x_i) · ∇_θ log p_θ(x_i)^T] ``` 这与总体 Fisher G(θ) = E_{x∼p_θ}[∇log p_θ · ∇log p_θ^T] 的区别在于用经验平均替代了期望。 ## 与总体 Fisher 的异同 | 方面 | 经验 Fisher | 总体 Fisher | |------|-----------|------------| | 计算 | 可计算(n 个样本) | 需解析或 Monte Carlo | | 偏差 | 有限样本偏差 | 无偏(定义) | | 梯度依赖性 | 与 Hessian 的关系取决于模型 | 在真实参数处 = 负期望 Hessian | | 使用场景 | 自然梯度、K-FAC | 理论分析 | ## 在 Fisher Width 估计中的角色 Vu (2026) 的 Fisher width 估计器使用经验 Fisher: 1. **全经验 Fisher 估计器**:计算 Ĝ(θ)^{1/2},对集合做重标度后估计 Gaussian width 2. **低秩近似**:对 Ĝ(θ) 做截断 SVD,利用 Fisher 谱的快速衰减 3. **分数范数估计器**:针对特定集合(如欧几里得球)的高效特化 关键理论保证来自**经验 Fisher 稳定性定理**:当 ‖Ĝ−G‖_{op} → 0 时(在适当条件下以 O(1/√n) 速率),Fisher width 的经验估计一致收敛到总体值。 ## MNIST 上验证 - 逻辑回归 (d=784):低秩近似 k=20 已捕获 >95% 的 Fisher 迹 - Softmax 回归:Fisher 谱同样快速衰减 - 岭回归:估计器在不同正则化强度下稳定 ## 参考 - [[vu-fisher-width-2026|Fisher Width 论文]] - [[fisher-information-metric|Fisher Information Metric]] - [[natural-gradient-descent|Natural Gradient Descent]] - [[fisher-lipschitz|Fisher-Lipschitz]]