--- title: "Stem: Rethinking Causal Information Flow in Sparse Attention" created: 2026-06-05 updated: 2026-06-05 type: paper tags: [sparse-attention, causal, information-flow, pre-filling, training-free] sources: [arxiv:2603.06274] --- # Stem: Rethinking Causal Information Flow in Sparse Attention > Niu et al. (Tencent / USTC), arXiv:2603.06274 (March 2026) ## 核心问题 Self-attention 的二次复杂度是 LLM 长上下文推理(特别是 pre-filling 阶段)的根本瓶颈。现有的 [[sparse-attention-patterns|稀疏注意力方法]] 存在两个系统性问题: 1. **统一 top-k**:对一层内所有 token 位置应用相同的稀疏预算,忽略了 [[causal-information-flow|因果信息流]] 的累积依赖结构 2. **仅靠注意力分数**:基于模拟的注意力分数选 token,忽略了 token 的实际信息贡献(Value 信息) ## 关键洞察:因果架构中的 Token 不对称性 在因果注意力中,第 1 个 token 的 Value 向量 V₁ 参与**所有后续 token** 的计算,而第 N 个 token 的 V_N 只参与最后一个 token 的计算。这种不对称性在深层网络中递归放大: > Pruning V₁ → 全局失真(影响每个后续 token) > Pruning V_N → 局部误差(仅影响尾部) 因此,对初始位置的 token 做无差别剪枝 = 系统性破坏信号传播。 ## Stem 框架 | 组件 | 机制 | 解决的问题 | |------|------|-----------| | **[[token-position-decay|TPD]]** | 位置依赖的 top-k:前面多保留,后面激进稀疏化 | 保护递归依赖链的完整性 | | **[[output-aware-metric|OAM]]** | 基于近似输出幅度的 token 选择(引入 Value 信息) | 超越仅靠注意力分数的盲目选择 | ## 关键特性 - **Training-free**:无需微调,即插即用 - **可叠加**:可作为插件集成到训练型稀疏模型(DeepSeek-V3.2、MiniCPM-4.1)中进一步压缩 - **Triton 实现**:基于 [[block-sparse-attention|Block Sparse Attention]] 内核高效执行 - **实验验证**:RULER + LongBench,Llama3.1-8B + Qwen3-8B ## 与其他稀疏注意力方法的关系 - [[native-sparse-attention|NSA]](DeepSeek)是训练型稀疏注意力,Stem 可以叠加其上进一步压缩 - [[block-sparse-attention|Block-Sparse Attention]] 是 Stem 的底层实现内核 - [[compressed-sparse-attention|CSA]] 和 [[sparse-attention-patterns|稀疏注意力模式]] 关注 token 选择策略,Stem 的创新在于将选择策略对齐到信息流结构