Files
myWiki/concepts/infinite-width-limit.md

1.8 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
无限宽度极限 (Infinite-Width Limit) 2026-06-17 2026-06-17 concept
deep-learning
theory
neural-networks
asymptotics
raw/papers/tiwari-ticks-to-flows-2026.md
high

无限宽度极限 (Infinite-Width Limit)

无限宽度极限是深度学习理论中将神经网络分析简化为高斯过程的核心技巧。在 ticks-to-flows 中,它是连接 RL 与随机过程理论的桥梁。

核心思想

当隐藏层宽度 n → ∞在适当的初始化下NN 的输出在函数空间中收敛于高斯过程GP

两种视角

初始化极限NNGP

在初始化时,随机 NN 的输出分布收敛到一个 GP其核函数为

K(s, s') = E_{W~N(0,1)}[φ(W·s) φ(W·s')]

这是 Neural Network Gaussian ProcessNNGP

训练极限NTK

在参数更新过程中,如果网络无限宽,则参数变化趋于 0NN 退化为以 neural-tangent-kernel 为核的 kernel method。

在 Ticks-to-Flows 中的应用

  1. 条件高斯化:在给定 s̃_{t,τ} 的条件下∆v, ∆v', ∆a, ∆a' 的分布是高斯分布limit of CLT
  2. O(1/sqrt(n)) 误差Berry-Esseen 类定理保证收敛速率
  3. 封闭系统:仅 5 个时变变量完全描述系统——这是高斯性带来的简化

关键假设

  • 学习率 η = O(1/sqrt(n))——宽度越大,学习率越小
  • 仅训练第一层参数C 冻结)
  • tanh 激活确保光滑性

局限性

  • 不捕捉特征学习NN 实际优势的来源)
  • "lazy regime" 与实际训练有差距
  • 扩展到有限宽度需要额外的纠偏项

参考