--- title: "The Bayesian Geometry of Transformer Attention" authors: "Naman Agarwal, Siddhartha R. Dalal, Vishal Misra" arxiv: "2512.22471" year: 2026 venue: "arXiv (cs.LG)" series: "Bayesian Attention Trilogy, Paper I" type: "paper" tags: ["bayesian-inference", "transformers", "attention", "geometry", "inference-primitives", "mamba"] --- # The Bayesian Geometry of Transformer Attention > 首次实证证明:小型 Transformer 可以在受控环境中实现精确的贝叶斯后验(10⁻³–10⁻⁴ bit accuracy),且这不是规模效应,而是注意力架构的**推理原语完备性**。 ## 核心问题 "Transformer 是在做真正的贝叶斯推理,还是仅仅是模式匹配?" 自然语言没有 ground-truth posterior 可验证,大模型也无法隔离记忆效应。本文用 **[[bayesian-wind-tunnels|Bayesian wind tunnels]]** 解决这个可验证性问题。 ## 方法论:Bayesian Wind Tunnels 受控预测环境,三个条件: 1. 解析 posterior 每一步都精确已知 2. 假设空间太大,记忆在计算上不可行 3. in-context prediction 需要真正的概率推理 → 将定性问题转化为定量测试:模型的预测熵是否与解析 posterior 熵逐位置匹配? ## 推理三原语 贝叶斯推理分解为三个原语: | 原语 | 定义 | 所需任务 | |------|------|---------| | [[belief-accumulation]] | 证据累积为 running posterior | 双射学习、HMM | | [[belief-transport]] | 信念在随机动态下传播 | HMM 滤波 | | [[random-access-binding]] | 按内容而非位置检索 | 联想回忆 | 详见 [[inference-primitives|推理原语分类法]]。 ## 架构可实现性 | 架构 | 累积 | 传输 | 绑定 | 地位 | |------|:---:|:---:|:---:|------| | Transformer | ✅ | ✅ | ✅ | **原语完备** | | Mamba | ✅ | ✅ | ❌ | HMM 滤波 SOTA | | LSTM | ✅ | ❌ | ❌ | 仅静态充分统计量 | | MLP | ❌ | ❌ | ❌ | 统一失败 | 核心结论:**[[primitive-completeness|原语完备性]]** — Transformer 是实现全部三原语的最小架构,这是其在推理任务中占主导的结构性原因。 ## 几何诊断 详见 [[bayesian-attention-geometry]]: - 注意力头中的 **正交 key 基** - 被 posterior 熵参数化的 **低维 value 流形** - Mamba 最终层组织为 **5 个簇** — 对应 HMM 隐藏状态 ## 三部曲定位 本文是 [[bayesian-attention-trilogy]] 的第一篇(Lemma 1): - **Paper I**(本文):存在性 + 内部几何 - **Paper II**:贝叶斯结构从交叉熵梯度动力学中自然涌现 - **Paper III**:原语在部分可观测环境中如何组合 ## 相关页面 - [[mamba-ssm]] — Mamba 选择性状态空间模型 - [[binding-constraint-thesis]] — 绑定的约束理论