Files
myWiki/concepts/linearized-neural-network.md

65 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "线性化神经网络 (Linearized Neural Network)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [deep-learning, theory, neural-networks, ntk]
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
confidence: high
---
# 线性化神经网络 (Linearized Neural Network)
线性化 NN 是将神经网络在**初始参数附近进行一阶 Taylor 展开**的理论工具,是 [[infinite-width-limit|无限宽度理论]] 的核心技术。
## 形式
对于两层的 actor 网络 `F(s; W)`,在初始化 `W^0` 附近线性化:
```
F_lin(s; W) = F(s; W^0) + Φ(s; W^0)(W - W^0)
```
其中 `Φ(s; W^0)` 是 Jacobiantangent features包含每个隐藏神经元的衍生特征
```
Φ_κ(s; W^0) = C_κ^0 φ'(W_κ^0 · s) s^T
```
## 关键性质
1. **W 线性**:输出是参数 W 的线性函数(但非输入 s 的线性函数)
2. **特征固定**tangent features Φ 在训练中不变化 → **lazy regime**
3. **高斯输出**在大宽度下输出近似服从高斯分布by CLT
4. **梯度简便**:梯度更新公式大幅简化
## 为什么用线性化
在 [[ticks-to-flows|Ticks-to-Flows]] 的证明中,线性化使得:
- 状态 `s̃_{t,τ}` 可以表示为参数 `W^τ - W^0` 的**多项式**(通过 [[ito-calculus|Itô-Taylor 展开]]
- 梯度更新公式Equation 5在参数空间中闭合
- [[martingale-clt|鞅 CLT]] 可应用于条件高斯极限的推导
## 与 NTK 的关系
在大宽度下,线性化模型的 kernel 趋近于 [[neural-tangent-kernel|Neural Tangent Kernel (NTK)]]
```
K(s, s') = E[Φ(s; W^0) · Φ(s'; W^0)]
```
NTK 描述了参数梯度之间的点积,决定了训练的动力学。
## 局限性
- Lazy training特征不演化限制了表征学习
- 需要 `η = O(1/sqrt(n))` 的小学习率
- 实际应用中不完全成立(特征学习是深度学习的关键优势)
## 参考
- [[neural-tangent-kernel|NTK]]
- [[infinite-width-limit|无限宽度极限]]
- [[ticks-to-flows|Ticks to Flows]]