20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/linearized-neural-network.md
+++ b/concepts/linearized-neural-network.md
@@ -0,0 +1,64 @@
+---
+title: "线性化神经网络 (Linearized Neural Network)"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [deep-learning, theory, neural-networks, ntk]
+sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
+confidence: high
+---
+
+# 线性化神经网络 (Linearized Neural Network)
+
+线性化 NN 是将神经网络在**初始参数附近进行一阶 Taylor 展开**的理论工具，是 [[infinite-width-limit|无限宽度理论]] 的核心技术。
+
+## 形式
+
+对于两层的 actor 网络 `F(s; W)`，在初始化 `W^0` 附近线性化：
+
+```
+F_lin(s; W) = F(s; W^0) + Φ(s; W^0)(W - W^0)
+```
+
+其中 `Φ(s; W^0)` 是 Jacobian（tangent features），包含每个隐藏神经元的衍生特征：
+
+```
+Φ_κ(s; W^0) = C_κ^0 φ'(W_κ^0 · s) s^T
+```
+
+## 关键性质
+
+1. **W 线性**：输出是参数 W 的线性函数（但非输入 s 的线性函数）
+2. **特征固定**：tangent features Φ 在训练中不变化 → **lazy regime**
+3. **高斯输出**：在大宽度下，输出近似服从高斯分布（by CLT）
+4. **梯度简便**：梯度更新公式大幅简化
+
+## 为什么用线性化
+
+在 [[ticks-to-flows|Ticks-to-Flows]] 的证明中，线性化使得：
+
+- 状态 `s̃_{t,τ}` 可以表示为参数 `W^τ - W^0` 的**多项式**（通过 [[ito-calculus|Itô-Taylor 展开]]）
+- 梯度更新公式（Equation 5）在参数空间中闭合
+- [[martingale-clt|鞅 CLT]] 可应用于条件高斯极限的推导
+
+## 与 NTK 的关系
+
+在大宽度下，线性化模型的 kernel 趋近于 [[neural-tangent-kernel|Neural Tangent Kernel (NTK)]]：
+
+```
+K(s, s') = E[Φ(s; W^0) · Φ(s'; W^0)]
+```
+
+NTK 描述了参数梯度之间的点积，决定了训练的动力学。
+
+## 局限性
+
+- Lazy training：特征不演化，限制了表征学习
+- 需要 `η = O(1/sqrt(n))` 的小学习率
+- 实际应用中不完全成立（特征学习是深度学习的关键优势）
+
+## 参考
+
+- [[neural-tangent-kernel|NTK]]
+- [[infinite-width-limit|无限宽度极限]]
+- [[ticks-to-flows|Ticks to Flows]]