myWiki/papers/niu-stem-causal-sparse-attention.md

---
title: "Stem: Rethinking Causal Information Flow in Sparse Attention"
created: 2026-06-05
updated: 2026-06-05
type: paper
tags: [sparse-attention, causal, information-flow, pre-filling, training-free]
sources: [arxiv:2603.06274]
---

# Stem: Rethinking Causal Information Flow in Sparse Attention

> Niu et al. (Tencent / USTC), arXiv:2603.06274 (March 2026)

## 核心问题

Self-attention 的二次复杂度是 LLM 长上下文推理（特别是 pre-filling 阶段）的根本瓶颈。现有的 [[sparse-attention-patterns|稀疏注意力方法]] 存在两个系统性问题：

1. **统一 top-k**：对一层内所有 token 位置应用相同的稀疏预算，忽略了 [[causal-information-flow|因果信息流]] 的累积依赖结构
2. **仅靠注意力分数**：基于模拟的注意力分数选 token，忽略了 token 的实际信息贡献（Value 信息）

## 关键洞察：因果架构中的 Token 不对称性

在因果注意力中，第 1 个 token 的 Value 向量 V₁ 参与**所有后续 token** 的计算，而第 N 个 token 的 V_N 只参与最后一个 token 的计算。这种不对称性在深层网络中递归放大：

> Pruning V₁ → 全局失真（影响每个后续 token）
> Pruning V_N → 局部误差（仅影响尾部）

因此，对初始位置的 token 做无差别剪枝 = 系统性破坏信号传播。

## Stem 框架

| 组件 | 机制 | 解决的问题 |
|------|------|-----------|
| **[[token-position-decay|TPD]]** | 位置依赖的 top-k：前面多保留，后面激进稀疏化 | 保护递归依赖链的完整性 |
| **[[output-aware-metric|OAM]]** | 基于近似输出幅度的 token 选择（引入 Value 信息） | 超越仅靠注意力分数的盲目选择 |

## 关键特性

- **Training-free**：无需微调，即插即用
- **可叠加**：可作为插件集成到训练型稀疏模型（DeepSeek-V3.2、MiniCPM-4.1）中进一步压缩
- **Triton 实现**：基于 [[block-sparse-attention|Block Sparse Attention]] 内核高效执行
- **实验验证**：RULER + LongBench，Llama3.1-8B + Qwen3-8B

## 与其他稀疏注意力方法的关系

- [[native-sparse-attention|NSA]]（DeepSeek）是训练型稀疏注意力，Stem 可以叠加其上进一步压缩
- [[block-sparse-attention|Block-Sparse Attention]] 是 Stem 的底层实现内核
- [[compressed-sparse-attention|CSA]] 和 [[sparse-attention-patterns|稀疏注意力模式]] 关注 token 选择策略，Stem 的创新在于将选择策略对齐到信息流结构