Files
myWiki/concepts/bayesian-attention-geometry.md
2026-06-01 10:46:01 +08:00

1.8 KiB
Raw Blame History

title, created, type, tags, sources
title created type tags sources
Bayesian Attention Geometry (贝叶斯注意力几何) 2026-05-26 concept
transformers
attention
geometry
bayesian-inference
agarwal-bayesian-attention-geometry

Bayesian Attention Geometry

在 Bayesian wind tunnel 中Transformer 的注意力头展现出可诊断的几何结构——正交 key 基、熵参数化的 value 流形、状态聚类。

三项几何发现

1. 正交 Key 基

注意力头的 key 投影形成近似正交的基底——每个头专注于不同的特征子空间,最大化信息覆盖。

2. 熵参数化的 Value 流形

Value 向量分布在一个低维流形上,该流形被 posterior 熵参数化。不确定性越高 → value 流形结构越丰富。

3. Mamba 的状态聚类

在 HMM 追踪任务中Mamba 的最终层自组织为 5 个离散簇——每个簇精确对应一个 HMM 隐藏状态。模型发现了 belief simplex 的角落几何。

几何诊断作为可解释性工具

这些几何特征不是设计出来的,而是训练过程中自然涌现的。它们提供了一种无监督的诊断手段

  • 正交 key 基 → 模型在做结构化的推理
  • 熵参数化 → 模型正确编码了不确定性
  • 状态聚类 → 模型发现了任务的潜在结构

inference-primitives 的关系

几何是实现原语的物理基础:

相关页面