1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 神经正切核 (Neural Tangent Kernel) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
神经正切核 (Neural Tangent Kernel)
NTK(Jacot et al., 2018)描述了无限宽神经网络在梯度下降训练中参数空间的局部几何——本质上是 NN 参数梯度的点积在宽度→∞ 时的极限。
定义
对于参数化函数 f_θ(x),NTK 定义为:
K(x, x') = ∇_θ f_θ(x) · ∇_θ f_θ(x')
在无限宽极限下,这个核在训练过程中保持恒定,使得 NN 训练等价于一个 kernel method。
在 Ticks-to-Flows 中的作用
ticks-to-flows 的证明大量使用了 NTK 的结构性质:
- 高斯极限:
F_lin(s; W)的输出在宽极限下是高斯过程,核函数由 NTK 给出 - 梯度更新简化:使用 NTK,actor 和 critic 的梯度更新公式可表达为核的积分
- 状态-动作耦合:状态变化
Δs_{t,τ}中的C_{u,l,τ}项本质上是 NTK 的时间积分
C_{u,l,τ} = E[C^2 φ'(s̃_l W) φ'(s̃_u W)]
与线性化 NN 的关系
linearized-neural-network 的 tangent features Φ(s) 满足:
K(s, s') ≈ Φ(s) · Φ(s') / n
在线性化模型中,这个 Kernel 决定梯度场的几何——所有训练动态都在这一个固定的核空间中展开。
关键限制
- Lazy training:核不随训练演化 → 无特征学习
- 宽度依赖:实际 NN 的核随训练变化("feature learning")
- 计算代价:精确 NTK 在大数据集上不可行