58 lines
1.8 KiB
Markdown
58 lines
1.8 KiB
Markdown
---
|
||
title: "神经正切核 (Neural Tangent Kernel)"
|
||
created: 2026-06-17
|
||
updated: 2026-06-17
|
||
type: concept
|
||
tags: [deep-learning, theory, kernel-methods, neural-networks]
|
||
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
|
||
confidence: high
|
||
---
|
||
|
||
# 神经正切核 (Neural Tangent Kernel)
|
||
|
||
NTK(Jacot et al., 2018)描述了**无限宽神经网络在梯度下降训练中参数空间的局部几何**——本质上是 NN 参数梯度的点积在宽度→∞ 时的极限。
|
||
|
||
## 定义
|
||
|
||
对于参数化函数 `f_θ(x)`,NTK 定义为:
|
||
|
||
```
|
||
K(x, x') = ∇_θ f_θ(x) · ∇_θ f_θ(x')
|
||
```
|
||
|
||
在无限宽极限下,这个核在训练过程中**保持恒定**,使得 NN 训练等价于一个 kernel method。
|
||
|
||
## 在 Ticks-to-Flows 中的作用
|
||
|
||
[[ticks-to-flows|Tiwari et al. (2026)]] 的证明大量使用了 NTK 的结构性质:
|
||
|
||
1. **高斯极限**:`F_lin(s; W)` 的输出在宽极限下是高斯过程,核函数由 NTK 给出
|
||
2. **梯度更新简化**:使用 NTK,actor 和 critic 的梯度更新公式可表达为核的积分
|
||
3. **状态-动作耦合**:状态变化 `Δs_{t,τ}` 中的 `C_{u,l,τ}` 项本质上是 NTK 的时间积分
|
||
|
||
```
|
||
C_{u,l,τ} = E[C^2 φ'(s̃_l W) φ'(s̃_u W)]
|
||
```
|
||
|
||
## 与线性化 NN 的关系
|
||
|
||
[[linearized-neural-network|线性化 NN]] 的 tangent features `Φ(s)` 满足:
|
||
|
||
```
|
||
K(s, s') ≈ Φ(s) · Φ(s') / n
|
||
```
|
||
|
||
在线性化模型中,这个 Kernel 决定梯度场的几何——所有训练动态都在这一个固定的核空间中展开。
|
||
|
||
## 关键限制
|
||
|
||
- **Lazy training**:核不随训练演化 → 无特征学习
|
||
- **宽度依赖**:实际 NN 的核随训练变化("feature learning")
|
||
- **计算代价**:精确 NTK 在大数据集上不可行
|
||
|
||
## 参考
|
||
|
||
- [[linearized-neural-network|线性化 NN]]
|
||
- [[infinite-width-limit|无限宽度极限]]
|
||
- [[ticks-to-flows|Ticks to Flows]]
|