Reference Sliding Window Attention (R-SWA)

R-SWA 是 Unlimited OCR 提出的注意力机制，模仿人类解析工作记忆：每个生成 token 关注全部参考 token + 前 n 个输出 token。核心创新在于将参考 token 排除在状态转移之外。

注意力计算

给定前缀段 P（长度 Lm，含视觉 token + prompt）和因果滑动窗口 Dn(t)（宽度 n）：

注意力权重：

\alpha_{tj} = \frac{\exp(q_t^T k_j / \sqrt{d_k})}{\sum_{i \in N(t)} \exp(q_t^T k_i / \sqrt{d_k})}, \quad j \in N(t)

标准 MHA：$C_{MHA}(T) = L_m + T$（线性增长）

R-SWA：$C_{R\text{-}SWA}(T) = L_m + \min(n, T) \leq L_m + n$（有界常数）

Cache 压缩比：$\rho(T) = \frac{L_m + n}{L_m + T} \to 0$（当 T 足够大时）

人类抄写时不回溯全部已写内容，仅关注附近上下文维持空间定向。R-SWA 的 soft forgetting 机制与此一致——历史输出信息通过滑动窗口传递，而非全量保留。