20260617:目前有914 页
This commit is contained in:
48
papers/niu-stem-causal-sparse-attention.md
Normal file
48
papers/niu-stem-causal-sparse-attention.md
Normal file
@@ -0,0 +1,48 @@
|
||||
---
|
||||
title: "Stem: Rethinking Causal Information Flow in Sparse Attention"
|
||||
created: 2026-06-05
|
||||
updated: 2026-06-05
|
||||
type: paper
|
||||
tags: [sparse-attention, causal, information-flow, pre-filling, training-free]
|
||||
sources: [arxiv:2603.06274]
|
||||
---
|
||||
|
||||
# Stem: Rethinking Causal Information Flow in Sparse Attention
|
||||
|
||||
> Niu et al. (Tencent / USTC), arXiv:2603.06274 (March 2026)
|
||||
|
||||
## 核心问题
|
||||
|
||||
Self-attention 的二次复杂度是 LLM 长上下文推理(特别是 pre-filling 阶段)的根本瓶颈。现有的 [[sparse-attention-patterns|稀疏注意力方法]] 存在两个系统性问题:
|
||||
|
||||
1. **统一 top-k**:对一层内所有 token 位置应用相同的稀疏预算,忽略了 [[causal-information-flow|因果信息流]] 的累积依赖结构
|
||||
2. **仅靠注意力分数**:基于模拟的注意力分数选 token,忽略了 token 的实际信息贡献(Value 信息)
|
||||
|
||||
## 关键洞察:因果架构中的 Token 不对称性
|
||||
|
||||
在因果注意力中,第 1 个 token 的 Value 向量 V₁ 参与**所有后续 token** 的计算,而第 N 个 token 的 V_N 只参与最后一个 token 的计算。这种不对称性在深层网络中递归放大:
|
||||
|
||||
> Pruning V₁ → 全局失真(影响每个后续 token)
|
||||
> Pruning V_N → 局部误差(仅影响尾部)
|
||||
|
||||
因此,对初始位置的 token 做无差别剪枝 = 系统性破坏信号传播。
|
||||
|
||||
## Stem 框架
|
||||
|
||||
| 组件 | 机制 | 解决的问题 |
|
||||
|------|------|-----------|
|
||||
| **[[token-position-decay|TPD]]** | 位置依赖的 top-k:前面多保留,后面激进稀疏化 | 保护递归依赖链的完整性 |
|
||||
| **[[output-aware-metric|OAM]]** | 基于近似输出幅度的 token 选择(引入 Value 信息) | 超越仅靠注意力分数的盲目选择 |
|
||||
|
||||
## 关键特性
|
||||
|
||||
- **Training-free**:无需微调,即插即用
|
||||
- **可叠加**:可作为插件集成到训练型稀疏模型(DeepSeek-V3.2、MiniCPM-4.1)中进一步压缩
|
||||
- **Triton 实现**:基于 [[block-sparse-attention|Block Sparse Attention]] 内核高效执行
|
||||
- **实验验证**:RULER + LongBench,Llama3.1-8B + Qwen3-8B
|
||||
|
||||
## 与其他稀疏注意力方法的关系
|
||||
|
||||
- [[native-sparse-attention|NSA]](DeepSeek)是训练型稀疏注意力,Stem 可以叠加其上进一步压缩
|
||||
- [[block-sparse-attention|Block-Sparse Attention]] 是 Stem 的底层实现内核
|
||||
- [[compressed-sparse-attention|CSA]] 和 [[sparse-attention-patterns|稀疏注意力模式]] 关注 token 选择策略,Stem 的创新在于将选择策略对齐到信息流结构
|
||||
Reference in New Issue
Block a user