Files
myWiki/concepts/empirical-fisher.md

55 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Empirical Fisher (经验 Fisher 信息)"
created: 2026-06-23
updated: 2026-06-23
type: concept
tags: ["computation", "estimation", "fisher-metric", "information-geometry"]
sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"]
---
# Empirical Fisher (经验 Fisher 信息)
**Empirical Fisher** 是用样本数据近似总体 [[fisher-information-metric|Fisher 信息度量]]的计算方法,是 [[vu-fisher-width-2026|Fisher Width]] 实际可计算性的关键。
## 定义
给定样本 {x_i}ⁿ_{i=1} p_θ经验 Fisher 矩阵为:
```
Ĝ(θ) = (1/n) Σⁿ_{i=1} [∇_θ log p_θ(x_i) · ∇_θ log p_θ(x_i)^T]
```
这与总体 Fisher G(θ) = E_{xp_θ}[∇log p_θ · ∇log p_θ^T] 的区别在于用经验平均替代了期望。
## 与总体 Fisher 的异同
| 方面 | 经验 Fisher | 总体 Fisher |
|------|-----------|------------|
| 计算 | 可计算n 个样本) | 需解析或 Monte Carlo |
| 偏差 | 有限样本偏差 | 无偏(定义) |
| 梯度依赖性 | 与 Hessian 的关系取决于模型 | 在真实参数处 = 负期望 Hessian |
| 使用场景 | 自然梯度、K-FAC | 理论分析 |
## 在 Fisher Width 估计中的角色
Vu (2026) 的 Fisher width 估计器使用经验 Fisher
1. **全经验 Fisher 估计器**:计算 Ĝ(θ)^{1/2},对集合做重标度后估计 Gaussian width
2. **低秩近似**:对 Ĝ(θ) 做截断 SVD利用 Fisher 谱的快速衰减
3. **分数范数估计器**:针对特定集合(如欧几里得球)的高效特化
关键理论保证来自**经验 Fisher 稳定性定理**:当 ‖ĜG‖_{op} → 0 时(在适当条件下以 O(1/√n) 速率Fisher width 的经验估计一致收敛到总体值。
## MNIST 上验证
- 逻辑回归 (d=784):低秩近似 k=20 已捕获 >95% 的 Fisher 迹
- Softmax 回归Fisher 谱同样快速衰减
- 岭回归:估计器在不同正则化强度下稳定
## 参考
- [[vu-fisher-width-2026|Fisher Width 论文]]
- [[fisher-information-metric|Fisher Information Metric]]
- [[natural-gradient-descent|Natural Gradient Descent]]
- [[fisher-lipschitz|Fisher-Lipschitz]]