2.7 KiB
2.7 KiB
title, authors, arxiv, year, venue, series, type, tags
| title | authors | arxiv | year | venue | series | type | tags | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| The Bayesian Geometry of Transformer Attention | Naman Agarwal, Siddhartha R. Dalal, Vishal Misra | 2512.22471 | 2026 | arXiv (cs.LG) | Bayesian Attention Trilogy, Paper I | paper |
|
The Bayesian Geometry of Transformer Attention
首次实证证明:小型 Transformer 可以在受控环境中实现精确的贝叶斯后验(10⁻³–10⁻⁴ bit accuracy),且这不是规模效应,而是注意力架构的推理原语完备性。
核心问题
"Transformer 是在做真正的贝叶斯推理,还是仅仅是模式匹配?"
自然语言没有 ground-truth posterior 可验证,大模型也无法隔离记忆效应。本文用 bayesian-wind-tunnels 解决这个可验证性问题。
方法论:Bayesian Wind Tunnels
受控预测环境,三个条件:
- 解析 posterior 每一步都精确已知
- 假设空间太大,记忆在计算上不可行
- in-context prediction 需要真正的概率推理
→ 将定性问题转化为定量测试:模型的预测熵是否与解析 posterior 熵逐位置匹配?
推理三原语
贝叶斯推理分解为三个原语:
| 原语 | 定义 | 所需任务 |
|---|---|---|
| belief-accumulation | 证据累积为 running posterior | 双射学习、HMM |
| belief-transport | 信念在随机动态下传播 | HMM 滤波 |
| random-access-binding | 按内容而非位置检索 | 联想回忆 |
架构可实现性
| 架构 | 累积 | 传输 | 绑定 | 地位 |
|---|---|---|---|---|
| Transformer | ✅ | ✅ | ✅ | 原语完备 |
| Mamba | ✅ | ✅ | ❌ | HMM 滤波 SOTA |
| LSTM | ✅ | ❌ | ❌ | 仅静态充分统计量 |
| MLP | ❌ | ❌ | ❌ | 统一失败 |
核心结论:primitive-completeness — Transformer 是实现全部三原语的最小架构,这是其在推理任务中占主导的结构性原因。
几何诊断
详见 bayesian-attention-geometry:
- 注意力头中的 正交 key 基
- 被 posterior 熵参数化的 低维 value 流形
- Mamba 最终层组织为 5 个簇 — 对应 HMM 隐藏状态
三部曲定位
本文是 bayesian-attention-trilogy 的第一篇(Lemma 1):
- Paper I(本文):存在性 + 内部几何
- Paper II:贝叶斯结构从交叉熵梯度动力学中自然涌现
- Paper III:原语在部分可观测环境中如何组合
相关页面
- mamba-ssm — Mamba 选择性状态空间模型
- binding-constraint-thesis — 绑定的约束理论