55 lines
2.1 KiB
Markdown
55 lines
2.1 KiB
Markdown
---
|
||
title: "Empirical Fisher (经验 Fisher 信息)"
|
||
created: 2026-06-23
|
||
updated: 2026-06-23
|
||
type: concept
|
||
tags: ["computation", "estimation", "fisher-metric", "information-geometry"]
|
||
sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"]
|
||
---
|
||
|
||
# Empirical Fisher (经验 Fisher 信息)
|
||
|
||
**Empirical Fisher** 是用样本数据近似总体 [[fisher-information-metric|Fisher 信息度量]]的计算方法,是 [[vu-fisher-width-2026|Fisher Width]] 实际可计算性的关键。
|
||
|
||
## 定义
|
||
|
||
给定样本 {x_i}ⁿ_{i=1} ∼ p_θ,经验 Fisher 矩阵为:
|
||
|
||
```
|
||
Ĝ(θ) = (1/n) Σⁿ_{i=1} [∇_θ log p_θ(x_i) · ∇_θ log p_θ(x_i)^T]
|
||
```
|
||
|
||
这与总体 Fisher G(θ) = E_{x∼p_θ}[∇log p_θ · ∇log p_θ^T] 的区别在于用经验平均替代了期望。
|
||
|
||
## 与总体 Fisher 的异同
|
||
|
||
| 方面 | 经验 Fisher | 总体 Fisher |
|
||
|------|-----------|------------|
|
||
| 计算 | 可计算(n 个样本) | 需解析或 Monte Carlo |
|
||
| 偏差 | 有限样本偏差 | 无偏(定义) |
|
||
| 梯度依赖性 | 与 Hessian 的关系取决于模型 | 在真实参数处 = 负期望 Hessian |
|
||
| 使用场景 | 自然梯度、K-FAC | 理论分析 |
|
||
|
||
## 在 Fisher Width 估计中的角色
|
||
|
||
Vu (2026) 的 Fisher width 估计器使用经验 Fisher:
|
||
|
||
1. **全经验 Fisher 估计器**:计算 Ĝ(θ)^{1/2},对集合做重标度后估计 Gaussian width
|
||
2. **低秩近似**:对 Ĝ(θ) 做截断 SVD,利用 Fisher 谱的快速衰减
|
||
3. **分数范数估计器**:针对特定集合(如欧几里得球)的高效特化
|
||
|
||
关键理论保证来自**经验 Fisher 稳定性定理**:当 ‖Ĝ−G‖_{op} → 0 时(在适当条件下以 O(1/√n) 速率),Fisher width 的经验估计一致收敛到总体值。
|
||
|
||
## MNIST 上验证
|
||
|
||
- 逻辑回归 (d=784):低秩近似 k=20 已捕获 >95% 的 Fisher 迹
|
||
- Softmax 回归:Fisher 谱同样快速衰减
|
||
- 岭回归:估计器在不同正则化强度下稳定
|
||
|
||
## 参考
|
||
|
||
- [[vu-fisher-width-2026|Fisher Width 论文]]
|
||
- [[fisher-information-metric|Fisher Information Metric]]
|
||
- [[natural-gradient-descent|Natural Gradient Descent]]
|
||
- [[fisher-lipschitz|Fisher-Lipschitz]]
|