Stem: Rethinking Causal Information Flow in Sparse Attention

Niu et al. (Tencent / USTC), arXiv:2603.06274 (March 2026)

核心问题

Self-attention 的二次复杂度是 LLM 长上下文推理（特别是 pre-filling 阶段）的根本瓶颈。现有的 sparse-attention-patterns 存在两个系统性问题：

在因果注意力中，第 1 个 token 的 Value 向量 V₁ 参与所有后续 token 的计算，而第 N 个 token 的 V_N 只参与最后一个 token 的计算。这种不对称性在深层网络中递归放大：

Pruning V₁ → 全局失真（影响每个后续 token）
Pruning V_N → 局部误差（仅影响尾部）

因此，对初始位置的 token 做无差别剪枝 = 系统性破坏信号传播。

组件	机制	解决的问题
**[[token-position-decay	TPD]]**	位置依赖的 top-k：前面多保留，后面激进稀疏化
**[[output-aware-metric	OAM]]**	基于近似输出幅度的 token 选择（引入 Value 信息）

native-sparse-attention（DeepSeek）是训练型稀疏注意力，Stem 可以叠加其上进一步压缩
block-sparse-attention 是 Stem 的底层实现内核
compressed-sparse-attention 和 sparse-attention-patterns 关注 token 选择策略，Stem 的创新在于将选择策略对齐到信息流结构