Files
myWiki/concepts/linearized-neural-network.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
线性化神经网络 (Linearized Neural Network) 2026-06-17 2026-06-17 concept
deep-learning
theory
neural-networks
ntk
raw/papers/tiwari-ticks-to-flows-2026.md
high

线性化神经网络 (Linearized Neural Network)

线性化 NN 是将神经网络在初始参数附近进行一阶 Taylor 展开的理论工具,是 infinite-width-limit 的核心技术。

形式

对于两层的 actor 网络 F(s; W),在初始化 W^0 附近线性化:

F_lin(s; W) = F(s; W^0) + Φ(s; W^0)(W - W^0)

其中 Φ(s; W^0) 是 Jacobiantangent features包含每个隐藏神经元的衍生特征

Φ_κ(s; W^0) = C_κ^0 φ'(W_κ^0 · s) s^T

关键性质

  1. W 线性:输出是参数 W 的线性函数(但非输入 s 的线性函数)
  2. 特征固定tangent features Φ 在训练中不变化 → lazy regime
  3. 高斯输出在大宽度下输出近似服从高斯分布by CLT
  4. 梯度简便:梯度更新公式大幅简化

为什么用线性化

ticks-to-flows 的证明中,线性化使得:

  • 状态 s̃_{t,τ} 可以表示为参数 W^τ - W^0多项式(通过 ito-calculus
  • 梯度更新公式Equation 5在参数空间中闭合
  • martingale-clt 可应用于条件高斯极限的推导

与 NTK 的关系

在大宽度下,线性化模型的 kernel 趋近于 neural-tangent-kernel

K(s, s') = E[Φ(s; W^0) · Φ(s'; W^0)]

NTK 描述了参数梯度之间的点积,决定了训练的动力学。

局限性

  • Lazy training特征不演化限制了表征学习
  • 需要 η = O(1/sqrt(n)) 的小学习率
  • 实际应用中不完全成立(特征学习是深度学习的关键优势)

参考