20260625:很多新内容
This commit is contained in:
54
concepts/empirical-fisher.md
Normal file
54
concepts/empirical-fisher.md
Normal file
@@ -0,0 +1,54 @@
|
||||
---
|
||||
title: "Empirical Fisher (经验 Fisher 信息)"
|
||||
created: 2026-06-23
|
||||
updated: 2026-06-23
|
||||
type: concept
|
||||
tags: ["computation", "estimation", "fisher-metric", "information-geometry"]
|
||||
sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"]
|
||||
---
|
||||
|
||||
# Empirical Fisher (经验 Fisher 信息)
|
||||
|
||||
**Empirical Fisher** 是用样本数据近似总体 [[fisher-information-metric|Fisher 信息度量]]的计算方法,是 [[vu-fisher-width-2026|Fisher Width]] 实际可计算性的关键。
|
||||
|
||||
## 定义
|
||||
|
||||
给定样本 {x_i}ⁿ_{i=1} ∼ p_θ,经验 Fisher 矩阵为:
|
||||
|
||||
```
|
||||
Ĝ(θ) = (1/n) Σⁿ_{i=1} [∇_θ log p_θ(x_i) · ∇_θ log p_θ(x_i)^T]
|
||||
```
|
||||
|
||||
这与总体 Fisher G(θ) = E_{x∼p_θ}[∇log p_θ · ∇log p_θ^T] 的区别在于用经验平均替代了期望。
|
||||
|
||||
## 与总体 Fisher 的异同
|
||||
|
||||
| 方面 | 经验 Fisher | 总体 Fisher |
|
||||
|------|-----------|------------|
|
||||
| 计算 | 可计算(n 个样本) | 需解析或 Monte Carlo |
|
||||
| 偏差 | 有限样本偏差 | 无偏(定义) |
|
||||
| 梯度依赖性 | 与 Hessian 的关系取决于模型 | 在真实参数处 = 负期望 Hessian |
|
||||
| 使用场景 | 自然梯度、K-FAC | 理论分析 |
|
||||
|
||||
## 在 Fisher Width 估计中的角色
|
||||
|
||||
Vu (2026) 的 Fisher width 估计器使用经验 Fisher:
|
||||
|
||||
1. **全经验 Fisher 估计器**:计算 Ĝ(θ)^{1/2},对集合做重标度后估计 Gaussian width
|
||||
2. **低秩近似**:对 Ĝ(θ) 做截断 SVD,利用 Fisher 谱的快速衰减
|
||||
3. **分数范数估计器**:针对特定集合(如欧几里得球)的高效特化
|
||||
|
||||
关键理论保证来自**经验 Fisher 稳定性定理**:当 ‖Ĝ−G‖_{op} → 0 时(在适当条件下以 O(1/√n) 速率),Fisher width 的经验估计一致收敛到总体值。
|
||||
|
||||
## MNIST 上验证
|
||||
|
||||
- 逻辑回归 (d=784):低秩近似 k=20 已捕获 >95% 的 Fisher 迹
|
||||
- Softmax 回归:Fisher 谱同样快速衰减
|
||||
- 岭回归:估计器在不同正则化强度下稳定
|
||||
|
||||
## 参考
|
||||
|
||||
- [[vu-fisher-width-2026|Fisher Width 论文]]
|
||||
- [[fisher-information-metric|Fisher Information Metric]]
|
||||
- [[natural-gradient-descent|Natural Gradient Descent]]
|
||||
- [[fisher-lipschitz|Fisher-Lipschitz]]
|
||||
Reference in New Issue
Block a user