Files
myWiki/papers/niu-stem-causal-sparse-attention.md

49 lines
2.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Stem: Rethinking Causal Information Flow in Sparse Attention"
created: 2026-06-05
updated: 2026-06-05
type: paper
tags: [sparse-attention, causal, information-flow, pre-filling, training-free]
sources: [arxiv:2603.06274]
---
# Stem: Rethinking Causal Information Flow in Sparse Attention
> Niu et al. (Tencent / USTC), arXiv:2603.06274 (March 2026)
## 核心问题
Self-attention 的二次复杂度是 LLM 长上下文推理(特别是 pre-filling 阶段)的根本瓶颈。现有的 [[sparse-attention-patterns|稀疏注意力方法]] 存在两个系统性问题:
1. **统一 top-k**:对一层内所有 token 位置应用相同的稀疏预算,忽略了 [[causal-information-flow|因果信息流]] 的累积依赖结构
2. **仅靠注意力分数**:基于模拟的注意力分数选 token忽略了 token 的实际信息贡献Value 信息)
## 关键洞察:因果架构中的 Token 不对称性
在因果注意力中,第 1 个 token 的 Value 向量 V₁ 参与**所有后续 token** 的计算,而第 N 个 token 的 V_N 只参与最后一个 token 的计算。这种不对称性在深层网络中递归放大:
> Pruning V₁ → 全局失真(影响每个后续 token
> Pruning V_N → 局部误差(仅影响尾部)
因此,对初始位置的 token 做无差别剪枝 = 系统性破坏信号传播。
## Stem 框架
| 组件 | 机制 | 解决的问题 |
|------|------|-----------|
| **[[token-position-decay|TPD]]** | 位置依赖的 top-k前面多保留后面激进稀疏化 | 保护递归依赖链的完整性 |
| **[[output-aware-metric|OAM]]** | 基于近似输出幅度的 token 选择(引入 Value 信息) | 超越仅靠注意力分数的盲目选择 |
## 关键特性
- **Training-free**:无需微调,即插即用
- **可叠加**可作为插件集成到训练型稀疏模型DeepSeek-V3.2、MiniCPM-4.1)中进一步压缩
- **Triton 实现**:基于 [[block-sparse-attention|Block Sparse Attention]] 内核高效执行
- **实验验证**RULER + LongBenchLlama3.1-8B + Qwen3-8B
## 与其他稀疏注意力方法的关系
- [[native-sparse-attention|NSA]]DeepSeek是训练型稀疏注意力Stem 可以叠加其上进一步压缩
- [[block-sparse-attention|Block-Sparse Attention]] 是 Stem 的底层实现内核
- [[compressed-sparse-attention|CSA]] 和 [[sparse-attention-patterns|稀疏注意力模式]] 关注 token 选择策略Stem 的创新在于将选择策略对齐到信息流结构