Files
myWiki/papers/ortega-phd-thesis.md

2.5 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Uncertainty Estimation and Generalization Bounds for Modern Deep Learning 2026-06-17 2026-06-17 paper
bayesian-deep-learning
generalization
uncertainty
pac-bayesian
gaussian-process
raw/papers/ortega-phd-thesis-2026.md
high

现代深度学习中的不确定性估计与泛化界

Luis A. Ortega Andrés — PhD Thesis, Autonomous University of Madrid, 2026 Supervisor: Daniel Hernández-Lobato | arXiv: 2606.13818

核心问题

神经网络预测性能强大,但泛化能力与不确定性量化仍理解不完整。本论文从方法论和理论两个角度,在统一的概率视角下连接 Bayesian 推断、函数空间建模和大偏差理论。

方法论贡献

Deep Variational Implicit Process (deep-variational-implicit-process)

  • implicit-processes扩展到深度架构的可扩展 Bayesian 框架
  • 建模易采样但无显式密度的函数分布
  • 在深度高斯过程 1/10 的计算代价下达到竞争性能

后处理方法

方法 全称 机制
[[variational-linearized-laplace-approximation VaLLA]] Variational Linearized Laplace
[[fixed-mean-gaussian-process FMGP]] Fixed-Mean Gaussian Process

两者均为预训练确定性网络附加校准的不确定性估计,桥接确定性与 Bayesian 深度学习。

理论贡献

统一泛化框架

pac-bayesian-bounds 和大偏差理论下连接三个泛化机制:

  1. 多样性Diversity:集成成员的函数独立性降低泛化误差
  2. 光滑性Smoothness:损失景观曲率放大经验损失的集中率函数
  3. 随机性StochasticitySGD 噪声作为隐式正则化 → 偏向平坦极小值

PAC-Chernoff 界

  • 插值区间仍有意义(传统界在此失效)
  • 提供对 double-descent 的定量、分布依赖解释

论文结构

章节 内容
Ch 2 Bayesian 推断基础 + GP + 泛化界
Ch 3 DVIP: 可扩展隐式过程 Bayesian 推断
Ch 4 VaLLA + FMGP: 后验不确定性校准
Ch 5 PAC-Bayes + 大偏差泛化框架
Ch 6 SGD 隐式正则化的概率分析

参考