20260617:目前有914 页
This commit is contained in:
56
concepts/infinite-width-limit.md
Normal file
56
concepts/infinite-width-limit.md
Normal file
@@ -0,0 +1,56 @@
|
||||
---
|
||||
title: "无限宽度极限 (Infinite-Width Limit)"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [deep-learning, theory, neural-networks, asymptotics]
|
||||
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 无限宽度极限 (Infinite-Width Limit)
|
||||
|
||||
无限宽度极限是深度学习理论中**将神经网络分析简化为高斯过程**的核心技巧。在 [[ticks-to-flows|Ticks-to-Flows]] 中,它是连接 RL 与随机过程理论的桥梁。
|
||||
|
||||
## 核心思想
|
||||
|
||||
当隐藏层宽度 `n → ∞` 时,在适当的初始化下,NN 的**输出在函数空间中收敛于高斯过程**(GP)。
|
||||
|
||||
## 两种视角
|
||||
|
||||
### 初始化极限(NNGP)
|
||||
在初始化时,随机 NN 的输出分布收敛到一个 GP,其核函数为:
|
||||
|
||||
```
|
||||
K(s, s') = E_{W~N(0,1)}[φ(W·s) φ(W·s')]
|
||||
```
|
||||
|
||||
这是 Neural Network Gaussian Process(NNGP)。
|
||||
|
||||
### 训练极限(NTK)
|
||||
在参数更新过程中,如果网络**无限宽**,则参数变化趋于 0,NN 退化为以 [[neural-tangent-kernel|NTK]] 为核的 kernel method。
|
||||
|
||||
## 在 Ticks-to-Flows 中的应用
|
||||
|
||||
1. **条件高斯化**:在给定 `s̃_{t,τ}` 的条件下,∆v, ∆v', ∆a, ∆a' 的分布是高斯分布(limit of CLT)
|
||||
2. **O(1/sqrt(n)) 误差**:Berry-Esseen 类定理保证收敛速率
|
||||
3. **封闭系统**:仅 5 个时变变量完全描述系统——这是高斯性带来的简化
|
||||
|
||||
## 关键假设
|
||||
|
||||
- 学习率 `η = O(1/sqrt(n))`——宽度越大,学习率越小
|
||||
- 仅训练第一层参数(C 冻结)
|
||||
- tanh 激活确保光滑性
|
||||
|
||||
## 局限性
|
||||
|
||||
- 不捕捉**特征学习**(NN 实际优势的来源)
|
||||
- "lazy regime" 与实际训练有差距
|
||||
- 扩展到有限宽度需要额外的纠偏项
|
||||
|
||||
## 参考
|
||||
|
||||
- [[neural-tangent-kernel|NTK]]
|
||||
- [[linearized-neural-network|线性化 NN]]
|
||||
- [[martingale-clt|鞅 CLT]]
|
||||
- [[ticks-to-flows|Ticks to Flows]]
|
||||
Reference in New Issue
Block a user