注意力汇 (Attention Sinks)

定义

注意力汇是 Xiao et al. (2024) 在 ICLR 论文 streaming-llm 中发现的现象：自回归 LLM 中，初始 Token 在所有层和注意力头上吸引不成比例的高注意力分数，即使它们与当前预测任务语义无关。

SoftMax 函数的性质导致注意力汇的出现：

\text{SoftMax}(x)_i = \frac{e^{x_i}}{\sum_{j=1}^N e^{x_j}}

关键约束：所有 token 的注意力分数之和必须为 1（$\sum_i \text{SoftMax}(x)_i = 1$）。

当当前 query 与大多数上下文 token 没有强语义匹配时，模型仍然需要把这些"多余"的注意力值分配到某处。初始 Token 因自回归建模中对所有后续 token 都可见，被自然训练为注意力的"汇" (sink)。

Xiao et al. 的公式表述：

\text{SoftMax}(x)_i = \frac{e^{x_i}}{e^{x_1} + \sum_{j=2}^N e^{x_j}}, \quad x_1 \gg x_j, \, j \in 2, \ldots, N

其中 $x_1$（初始 token 的注意力 logit）远大于其他 token。

为什么是初始 Token 而不是其他 Token？

→ 自回归语言建模中，初始 Token 对所有后续 Token 都可见，而后面的 Token 只对有限集合可见。这使得初始 Token 更容易被训练为注意力的通用"倾倒目标"。