Files
myWiki/concepts/infinite-width-limit.md

57 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "无限宽度极限 (Infinite-Width Limit)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [deep-learning, theory, neural-networks, asymptotics]
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
confidence: high
---
# 无限宽度极限 (Infinite-Width Limit)
无限宽度极限是深度学习理论中**将神经网络分析简化为高斯过程**的核心技巧。在 [[ticks-to-flows|Ticks-to-Flows]] 中,它是连接 RL 与随机过程理论的桥梁。
## 核心思想
当隐藏层宽度 `n → ∞`在适当的初始化下NN 的**输出在函数空间中收敛于高斯过程**GP
## 两种视角
### 初始化极限NNGP
在初始化时,随机 NN 的输出分布收敛到一个 GP其核函数为
```
K(s, s') = E_{W~N(0,1)}[φ(W·s) φ(W·s')]
```
这是 Neural Network Gaussian ProcessNNGP
### 训练极限NTK
在参数更新过程中,如果网络**无限宽**,则参数变化趋于 0NN 退化为以 [[neural-tangent-kernel|NTK]] 为核的 kernel method。
## 在 Ticks-to-Flows 中的应用
1. **条件高斯化**:在给定 `s̃_{t,τ}` 的条件下∆v, ∆v', ∆a, ∆a' 的分布是高斯分布limit of CLT
2. **O(1/sqrt(n)) 误差**Berry-Esseen 类定理保证收敛速率
3. **封闭系统**:仅 5 个时变变量完全描述系统——这是高斯性带来的简化
## 关键假设
- 学习率 `η = O(1/sqrt(n))`——宽度越大,学习率越小
- 仅训练第一层参数C 冻结)
- tanh 激活确保光滑性
## 局限性
- 不捕捉**特征学习**NN 实际优势的来源)
- "lazy regime" 与实际训练有差距
- 扩展到有限宽度需要额外的纠偏项
## 参考
- [[neural-tangent-kernel|NTK]]
- [[linearized-neural-network|线性化 NN]]
- [[martingale-clt|鞅 CLT]]
- [[ticks-to-flows|Ticks to Flows]]