20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/papers/agarwal-bayesian-attention-geometry.md
+++ b/papers/agarwal-bayesian-attention-geometry.md
@@ -0,0 +1,71 @@
+---
+title: "The Bayesian Geometry of Transformer Attention"
+authors: "Naman Agarwal, Siddhartha R. Dalal, Vishal Misra"
+arxiv: "2512.22471"
+year: 2026
+venue: "arXiv (cs.LG)"
+series: "Bayesian Attention Trilogy, Paper I"
+type: "paper"
+tags: ["bayesian-inference", "transformers", "attention", "geometry", "inference-primitives", "mamba"]
+---
+
+# The Bayesian Geometry of Transformer Attention
+
+> 首次实证证明：小型 Transformer 可以在受控环境中实现精确的贝叶斯后验（10⁻³–10⁻⁴ bit accuracy），且这不是规模效应，而是注意力架构的**推理原语完备性**。
+
+## 核心问题
+
+"Transformer 是在做真正的贝叶斯推理，还是仅仅是模式匹配？"
+
+自然语言没有 ground-truth posterior 可验证，大模型也无法隔离记忆效应。本文用 **[[bayesian-wind-tunnels|Bayesian wind tunnels]]** 解决这个可验证性问题。
+
+## 方法论：Bayesian Wind Tunnels
+
+受控预测环境，三个条件：
+1. 解析 posterior 每一步都精确已知
+2. 假设空间太大，记忆在计算上不可行
+3. in-context prediction 需要真正的概率推理
+
+→ 将定性问题转化为定量测试：模型的预测熵是否与解析 posterior 熵逐位置匹配？
+
+## 推理三原语
+
+贝叶斯推理分解为三个原语：
+
+| 原语 | 定义 | 所需任务 |
+|------|------|---------|
+| [[belief-accumulation]] | 证据累积为 running posterior | 双射学习、HMM |
+| [[belief-transport]] | 信念在随机动态下传播 | HMM 滤波 |
+| [[random-access-binding]] | 按内容而非位置检索 | 联想回忆 |
+
+详见 [[inference-primitives|推理原语分类法]]。
+
+## 架构可实现性
+
+| 架构 | 累积 | 传输 | 绑定 | 地位 |
+|------|:---:|:---:|:---:|------|
+| Transformer | ✅ | ✅ | ✅ | **原语完备** |
+| Mamba | ✅ | ✅ | ❌ | HMM 滤波 SOTA |
+| LSTM | ✅ | ❌ | ❌ | 仅静态充分统计量 |
+| MLP | ❌ | ❌ | ❌ | 统一失败 |
+
+核心结论：**[[primitive-completeness|原语完备性]]** — Transformer 是实现全部三原语的最小架构，这是其在推理任务中占主导的结构性原因。
+
+## 几何诊断
+
+详见 [[bayesian-attention-geometry]]：
+- 注意力头中的 **正交 key 基**
+- 被 posterior 熵参数化的 **低维 value 流形**
+- Mamba 最终层组织为 **5 个簇** — 对应 HMM 隐藏状态
+
+## 三部曲定位
+
+本文是 [[bayesian-attention-trilogy]] 的第一篇（Lemma 1）：
+- **Paper I**（本文）：存在性 + 内部几何
+- **Paper II**：贝叶斯结构从交叉熵梯度动力学中自然涌现
+- **Paper III**：原语在部分可观测环境中如何组合
+
+## 相关页面
+
+- [[mamba-ssm]] — Mamba 选择性状态空间模型
+- [[binding-constraint-thesis]] — 绑定的约束理论