SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

2.7 KiB

Raw Blame History

title, authors, arxiv, year, venue, series, type, tags

title

authors

arxiv

year

venue

series

type

tags

The Bayesian Geometry of Transformer Attention

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra

2512.22471

2026

arXiv (cs.LG)

Bayesian Attention Trilogy, Paper I

paper

bayesian-inference

transformers

attention

geometry

inference-primitives

mamba

The Bayesian Geometry of Transformer Attention

首次实证证明：小型 Transformer 可以在受控环境中实现精确的贝叶斯后验（10⁻³–10⁻⁴ bit accuracy），且这不是规模效应，而是注意力架构的推理原语完备性。

核心问题

"Transformer 是在做真正的贝叶斯推理，还是仅仅是模式匹配？"

自然语言没有 ground-truth posterior 可验证，大模型也无法隔离记忆效应。本文用 bayesian-wind-tunnels 解决这个可验证性问题。

方法论：Bayesian Wind Tunnels

受控预测环境，三个条件：

解析 posterior 每一步都精确已知
假设空间太大，记忆在计算上不可行
in-context prediction 需要真正的概率推理

→ 将定性问题转化为定量测试：模型的预测熵是否与解析 posterior 熵逐位置匹配？

推理三原语

贝叶斯推理分解为三个原语：

原语	定义	所需任务
belief-accumulation	证据累积为 running posterior	双射学习、HMM
belief-transport	信念在随机动态下传播	HMM 滤波
random-access-binding	按内容而非位置检索	联想回忆

详见 inference-primitives。

架构可实现性

架构	累积	传输	绑定	地位
Transformer	✅	✅	✅	原语完备
Mamba	✅	✅	❌	HMM 滤波 SOTA
LSTM	✅	❌	❌	仅静态充分统计量
MLP	❌	❌	❌	统一失败

核心结论：primitive-completeness — Transformer 是实现全部三原语的最小架构，这是其在推理任务中占主导的结构性原因。

几何诊断

详见 bayesian-attention-geometry：

注意力头中的 正交 key 基
被 posterior 熵参数化的 低维 value 流形
Mamba 最终层组织为 5 个簇 — 对应 HMM 隐藏状态

三部曲定位

本文是 bayesian-attention-trilogy 的第一篇（Lemma 1）：

Paper I（本文）：存在性 + 内部几何
Paper II：贝叶斯结构从交叉熵梯度动力学中自然涌现
Paper III：原语在部分可观测环境中如何组合

相关页面

mamba-ssm — Mamba 选择性状态空间模型
binding-constraint-thesis — 绑定的约束理论