20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

View File

@@ -0,0 +1,54 @@
---
title: "Empirical Fisher (经验 Fisher 信息)"
created: 2026-06-23
updated: 2026-06-23
type: concept
tags: ["computation", "estimation", "fisher-metric", "information-geometry"]
sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"]
---
# Empirical Fisher (经验 Fisher 信息)
**Empirical Fisher** 是用样本数据近似总体 [[fisher-information-metric|Fisher 信息度量]]的计算方法,是 [[vu-fisher-width-2026|Fisher Width]] 实际可计算性的关键。
## 定义
给定样本 {x_i}ⁿ_{i=1} p_θ经验 Fisher 矩阵为:
```
Ĝ(θ) = (1/n) Σⁿ_{i=1} [∇_θ log p_θ(x_i) · ∇_θ log p_θ(x_i)^T]
```
这与总体 Fisher G(θ) = E_{xp_θ}[∇log p_θ · ∇log p_θ^T] 的区别在于用经验平均替代了期望。
## 与总体 Fisher 的异同
| 方面 | 经验 Fisher | 总体 Fisher |
|------|-----------|------------|
| 计算 | 可计算n 个样本) | 需解析或 Monte Carlo |
| 偏差 | 有限样本偏差 | 无偏(定义) |
| 梯度依赖性 | 与 Hessian 的关系取决于模型 | 在真实参数处 = 负期望 Hessian |
| 使用场景 | 自然梯度、K-FAC | 理论分析 |
## 在 Fisher Width 估计中的角色
Vu (2026) 的 Fisher width 估计器使用经验 Fisher
1. **全经验 Fisher 估计器**:计算 Ĝ(θ)^{1/2},对集合做重标度后估计 Gaussian width
2. **低秩近似**:对 Ĝ(θ) 做截断 SVD利用 Fisher 谱的快速衰减
3. **分数范数估计器**:针对特定集合(如欧几里得球)的高效特化
关键理论保证来自**经验 Fisher 稳定性定理**:当 ‖ĜG‖_{op} → 0 时(在适当条件下以 O(1/√n) 速率Fisher width 的经验估计一致收敛到总体值。
## MNIST 上验证
- 逻辑回归 (d=784):低秩近似 k=20 已捕获 >95% 的 Fisher 迹
- Softmax 回归Fisher 谱同样快速衰减
- 岭回归:估计器在不同正则化强度下稳定
## 参考
- [[vu-fisher-width-2026|Fisher Width 论文]]
- [[fisher-information-metric|Fisher Information Metric]]
- [[natural-gradient-descent|Natural Gradient Descent]]
- [[fisher-lipschitz|Fisher-Lipschitz]]