SoftMax-off-by-One

定义

SoftMax-off-by-One（SoftMax₁）是 Miller (2023) 提出的 SoftMax 变体，在分母中加 1，使模型不必将注意力分数分配到不相关的 Token 上：

\text{SoftMax}_1(x)_i = \frac{e^{x_i}}{1 + \sum_{j=1}^N e^{x_j}}

标准 SoftMax 强制 $\sum_i \text{SoftMax}(x)_i = 1$，这意味着即使所有上下文 Token 都与当前 query 不相关，模型也必须分配注意力值——导致了 attention-sinks 现象。

SoftMax₁ 允许模型将多余的注意力"丢弃"到分母的 +1 项中，理论上消除对注意力汇的需求。

SoftMax₁ 在注意力计算中等价于前置一个全零 Key 和 Value 的虚拟 Token：

\text{Attention}(Q, K, V) = \text{SoftMax}_1(QK^T)V = \text{SoftMax}(\tilde{Q}\tilde{K}^T)\tilde{V}

其中 \tilde{K} = [0, K], $\tilde{V} = [0, V]$。

这在 streaming-llm 论文中被称为 Zero Sink。

Xiao et al. (2024) 的预训练实验表明：

→ SoftMax₁ 不足以完全替代专用的 sink-token

方案	机制	有效性
SoftMax₁ (Zero Sink)	修改 SoftMax 函数，允许丢弃注意力	部分改善，不够充分
Learnable Sink Token	预训练时添加专用可学习 Token	完全有效，仅需 1 个 Token