2.4 KiB
2.4 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Stem: Rethinking Causal Information Flow in Sparse Attention | 2026-06-05 | 2026-06-05 | paper |
|
|
Stem: Rethinking Causal Information Flow in Sparse Attention
Niu et al. (Tencent / USTC), arXiv:2603.06274 (March 2026)
核心问题
Self-attention 的二次复杂度是 LLM 长上下文推理(特别是 pre-filling 阶段)的根本瓶颈。现有的 sparse-attention-patterns 存在两个系统性问题:
- 统一 top-k:对一层内所有 token 位置应用相同的稀疏预算,忽略了 causal-information-flow 的累积依赖结构
- 仅靠注意力分数:基于模拟的注意力分数选 token,忽略了 token 的实际信息贡献(Value 信息)
关键洞察:因果架构中的 Token 不对称性
在因果注意力中,第 1 个 token 的 Value 向量 V₁ 参与所有后续 token 的计算,而第 N 个 token 的 V_N 只参与最后一个 token 的计算。这种不对称性在深层网络中递归放大:
Pruning V₁ → 全局失真(影响每个后续 token)
Pruning V_N → 局部误差(仅影响尾部)
因此,对初始位置的 token 做无差别剪枝 = 系统性破坏信号传播。
Stem 框架
| 组件 | 机制 | 解决的问题 |
|---|---|---|
| **[[token-position-decay | TPD]]** | 位置依赖的 top-k:前面多保留,后面激进稀疏化 |
| **[[output-aware-metric | OAM]]** | 基于近似输出幅度的 token 选择(引入 Value 信息) |
关键特性
- Training-free:无需微调,即插即用
- 可叠加:可作为插件集成到训练型稀疏模型(DeepSeek-V3.2、MiniCPM-4.1)中进一步压缩
- Triton 实现:基于 block-sparse-attention 内核高效执行
- 实验验证:RULER + LongBench,Llama3.1-8B + Qwen3-8B
与其他稀疏注意力方法的关系
- native-sparse-attention(DeepSeek)是训练型稀疏注意力,Stem 可以叠加其上进一步压缩
- block-sparse-attention 是 Stem 的底层实现内核
- compressed-sparse-attention 和 sparse-attention-patterns 关注 token 选择策略,Stem 的创新在于将选择策略对齐到信息流结构