34 lines
1.3 KiB
Markdown
34 lines
1.3 KiB
Markdown
---
|
||
title: "自然梯度下降"
|
||
created: 2026-06-22
|
||
updated: 2026-06-22
|
||
type: concept
|
||
tags: [optimization, information-geometry, manifold-learning]
|
||
sources: [nano-filter]
|
||
---
|
||
|
||
# 自然梯度下降
|
||
|
||
Natural gradient descent 是考虑参数空间几何结构的梯度下降方法。不同于标准梯度下降在欧氏空间中取最陡下降方向,自然梯度利用 **Fisher 信息矩阵** $F$ 调整梯度方向,以适配参数空间的曲率(Riemannian 结构)。
|
||
|
||
## 更新公式
|
||
|
||
$$
|
||
v^{(i+1)} = v^{(i)} - \eta F_v^{-1} \frac{\partial J}{\partial v}\Big|_{v=v^{(i)}}
|
||
$$
|
||
|
||
其中 $F_v$ 是 Fisher 信息矩阵。与标准梯度下降 $v - \eta \nabla J$ 的区别在于用 $F_v^{-1}$ 对梯度做度量校正。
|
||
|
||
## 在高斯流形上的应用
|
||
|
||
[[nano-filter|NANO filter]] 的核心创新:在 [[gaussian-manifold|高斯流形]] 上执行自然梯度下降,直接最小化更新步的优化目标 $J(\hat{x}_t, P_t)$,避免传统 Gaussian filter 的线性化误差。Fisher 矩阵在高斯分布 $N(x; \hat{x}_t, P_t)$ 下具有解析形式:
|
||
|
||
$$
|
||
F_v^{-1} = \begin{bmatrix} P_t & 0 \\ 0 & 2(P_t^{-1} \otimes P_t^{-1}) \end{bmatrix}
|
||
$$
|
||
|
||
## 参考
|
||
- [[gaussian-manifold|Gaussian Manifold]]
|
||
- [[fisher-information-metric|Fisher Information Metric]]
|
||
- [[nano-filter|NANO Filter]]
|