1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 无限宽度极限 (Infinite-Width Limit) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
无限宽度极限 (Infinite-Width Limit)
无限宽度极限是深度学习理论中将神经网络分析简化为高斯过程的核心技巧。在 ticks-to-flows 中,它是连接 RL 与随机过程理论的桥梁。
核心思想
当隐藏层宽度 n → ∞ 时,在适当的初始化下,NN 的输出在函数空间中收敛于高斯过程(GP)。
两种视角
初始化极限(NNGP)
在初始化时,随机 NN 的输出分布收敛到一个 GP,其核函数为:
K(s, s') = E_{W~N(0,1)}[φ(W·s) φ(W·s')]
这是 Neural Network Gaussian Process(NNGP)。
训练极限(NTK)
在参数更新过程中,如果网络无限宽,则参数变化趋于 0,NN 退化为以 neural-tangent-kernel 为核的 kernel method。
在 Ticks-to-Flows 中的应用
- 条件高斯化:在给定
s̃_{t,τ}的条件下,∆v, ∆v', ∆a, ∆a' 的分布是高斯分布(limit of CLT) - O(1/sqrt(n)) 误差:Berry-Esseen 类定理保证收敛速率
- 封闭系统:仅 5 个时变变量完全描述系统——这是高斯性带来的简化
关键假设
- 学习率
η = O(1/sqrt(n))——宽度越大,学习率越小 - 仅训练第一层参数(C 冻结)
- tanh 激活确保光滑性
局限性
- 不捕捉特征学习(NN 实际优势的来源)
- "lazy regime" 与实际训练有差距
- 扩展到有限宽度需要额外的纠偏项