20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/infinite-width-limit.md
+++ b/concepts/infinite-width-limit.md
@@ -0,0 +1,56 @@
+---
+title: "无限宽度极限 (Infinite-Width Limit)"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [deep-learning, theory, neural-networks, asymptotics]
+sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
+confidence: high
+---
+
+# 无限宽度极限 (Infinite-Width Limit)
+
+无限宽度极限是深度学习理论中**将神经网络分析简化为高斯过程**的核心技巧。在 [[ticks-to-flows|Ticks-to-Flows]] 中，它是连接 RL 与随机过程理论的桥梁。
+
+## 核心思想
+
+当隐藏层宽度 `n → ∞` 时，在适当的初始化下，NN 的**输出在函数空间中收敛于高斯过程**（GP）。
+
+## 两种视角
+
+### 初始化极限（NNGP）
+在初始化时，随机 NN 的输出分布收敛到一个 GP，其核函数为：
+
+```
+K(s, s') = E_{W~N(0,1)}[φ(W·s) φ(W·s')]
+```
+
+这是 Neural Network Gaussian Process（NNGP）。
+
+### 训练极限（NTK）
+在参数更新过程中，如果网络**无限宽**，则参数变化趋于 0，NN 退化为以 [[neural-tangent-kernel|NTK]] 为核的 kernel method。
+
+## 在 Ticks-to-Flows 中的应用
+
+1. **条件高斯化**：在给定 `s̃_{t,τ}` 的条件下，∆v, ∆v', ∆a, ∆a' 的分布是高斯分布（limit of CLT）
+2. **O(1/sqrt(n)) 误差**：Berry-Esseen 类定理保证收敛速率
+3. **封闭系统**：仅 5 个时变变量完全描述系统——这是高斯性带来的简化
+
+## 关键假设
+
+- 学习率 `η = O(1/sqrt(n))`——宽度越大，学习率越小
+- 仅训练第一层参数（C 冻结）
+- tanh 激活确保光滑性
+
+## 局限性
+
+- 不捕捉**特征学习**（NN 实际优势的来源）
+- "lazy regime" 与实际训练有差距
+- 扩展到有限宽度需要额外的纠偏项
+
+## 参考
+
+- [[neural-tangent-kernel|NTK]]
+- [[linearized-neural-network|线性化 NN]]
+- [[martingale-clt|鞅 CLT]]
+- [[ticks-to-flows|Ticks to Flows]]