Files
myWiki/papers/niu-stem-causal-sparse-attention.md

2.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Stem: Rethinking Causal Information Flow in Sparse Attention 2026-06-05 2026-06-05 paper
sparse-attention
causal
information-flow
pre-filling
training-free
arxiv:2603.06274

Stem: Rethinking Causal Information Flow in Sparse Attention

Niu et al. (Tencent / USTC), arXiv:2603.06274 (March 2026)

核心问题

Self-attention 的二次复杂度是 LLM 长上下文推理(特别是 pre-filling 阶段)的根本瓶颈。现有的 sparse-attention-patterns 存在两个系统性问题:

  1. 统一 top-k:对一层内所有 token 位置应用相同的稀疏预算,忽略了 causal-information-flow 的累积依赖结构
  2. 仅靠注意力分数:基于模拟的注意力分数选 token忽略了 token 的实际信息贡献Value 信息)

关键洞察:因果架构中的 Token 不对称性

在因果注意力中,第 1 个 token 的 Value 向量 V₁ 参与所有后续 token 的计算,而第 N 个 token 的 V_N 只参与最后一个 token 的计算。这种不对称性在深层网络中递归放大:

Pruning V₁ → 全局失真(影响每个后续 token
Pruning V_N → 局部误差(仅影响尾部)

因此,对初始位置的 token 做无差别剪枝 = 系统性破坏信号传播。

Stem 框架

组件 机制 解决的问题
**[[token-position-decay TPD]]** 位置依赖的 top-k前面多保留后面激进稀疏化
**[[output-aware-metric OAM]]** 基于近似输出幅度的 token 选择(引入 Value 信息)

关键特性

  • Training-free:无需微调,即插即用
  • 可叠加可作为插件集成到训练型稀疏模型DeepSeek-V3.2、MiniCPM-4.1)中进一步压缩
  • Triton 实现:基于 block-sparse-attention 内核高效执行
  • 实验验证RULER + LongBenchLlama3.1-8B + Qwen3-8B

与其他稀疏注意力方法的关系