2.0 KiB
2.0 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 线性化神经网络 (Linearized Neural Network) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
线性化神经网络 (Linearized Neural Network)
线性化 NN 是将神经网络在初始参数附近进行一阶 Taylor 展开的理论工具,是 infinite-width-limit 的核心技术。
形式
对于两层的 actor 网络 F(s; W),在初始化 W^0 附近线性化:
F_lin(s; W) = F(s; W^0) + Φ(s; W^0)(W - W^0)
其中 Φ(s; W^0) 是 Jacobian(tangent features),包含每个隐藏神经元的衍生特征:
Φ_κ(s; W^0) = C_κ^0 φ'(W_κ^0 · s) s^T
关键性质
- W 线性:输出是参数 W 的线性函数(但非输入 s 的线性函数)
- 特征固定:tangent features Φ 在训练中不变化 → lazy regime
- 高斯输出:在大宽度下,输出近似服从高斯分布(by CLT)
- 梯度简便:梯度更新公式大幅简化
为什么用线性化
在 ticks-to-flows 的证明中,线性化使得:
- 状态
s̃_{t,τ}可以表示为参数W^τ - W^0的多项式(通过 ito-calculus) - 梯度更新公式(Equation 5)在参数空间中闭合
- martingale-clt 可应用于条件高斯极限的推导
与 NTK 的关系
在大宽度下,线性化模型的 kernel 趋近于 neural-tangent-kernel:
K(s, s') = E[Φ(s; W^0) · Φ(s'; W^0)]
NTK 描述了参数梯度之间的点积,决定了训练的动力学。
局限性
- Lazy training:特征不演化,限制了表征学习
- 需要
η = O(1/sqrt(n))的小学习率 - 实际应用中不完全成立(特征学习是深度学习的关键优势)