Files
myWiki/concepts/bayesian-attention-trilogy.md
2026-06-01 10:46:01 +08:00

1.9 KiB
Raw Blame History

title, created, type, tags, sources
title created type tags sources
Bayesian Attention Trilogy 2026-05-26 concept
bayesian-inference
transformers
research-program
agarwal-bayesian-attention-geometry

Bayesian Attention Trilogy

三篇论文构成的统一论证Transformer 的贝叶斯推理——从存在性到涌现机制到组合扩展。

三部曲结构

Paper I: The Bayesian Geometry of Transformer Attention

Paper II: Gradient Dynamics

  • 角色:解释为什么
  • 内容:贝叶斯结构从交叉熵梯度动力学中自然涌现
  • 论证:不是巧合,而是训练的必然收敛结果

Paper III: Composition in Partially Observed Settings

  • 角色:展示扩展性
  • 内容:原语在部分可观测环境(更接近自然语言)中如何组合
  • 论证:简单原语的组合产生复杂推理行为

统一论证

Paper I:   Transformer 能做到精确贝叶斯推理吗?      → 是(存在性)
Paper II:  这是巧合还是必然?                        → 必然(涌现机制)
Paper III: 这些能力能扩展到真实场景吗?               → 能(组合扩展)

方法论价值

三部曲展示了从可验证的受控实验Paper I理论解释Paper II再到向真实场景推广Paper III的完整研究范式。这与 bayesian-wind-tunnels 方法论一致——先在可控环境中建立基本事实,再逐步增加复杂度。

相关页面