20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/papers/niu-stem-causal-sparse-attention.md
+++ b/papers/niu-stem-causal-sparse-attention.md
@@ -0,0 +1,48 @@
+---
+title: "Stem: Rethinking Causal Information Flow in Sparse Attention"
+created: 2026-06-05
+updated: 2026-06-05
+type: paper
+tags: [sparse-attention, causal, information-flow, pre-filling, training-free]
+sources: [arxiv:2603.06274]
+---
+
+# Stem: Rethinking Causal Information Flow in Sparse Attention
+
+> Niu et al. (Tencent / USTC), arXiv:2603.06274 (March 2026)
+
+## 核心问题
+
+Self-attention 的二次复杂度是 LLM 长上下文推理（特别是 pre-filling 阶段）的根本瓶颈。现有的 [[sparse-attention-patterns|稀疏注意力方法]] 存在两个系统性问题：
+
+1. **统一 top-k**：对一层内所有 token 位置应用相同的稀疏预算，忽略了 [[causal-information-flow|因果信息流]] 的累积依赖结构
+2. **仅靠注意力分数**：基于模拟的注意力分数选 token，忽略了 token 的实际信息贡献（Value 信息）
+
+## 关键洞察：因果架构中的 Token 不对称性
+
+在因果注意力中，第 1 个 token 的 Value 向量 V₁ 参与**所有后续 token** 的计算，而第 N 个 token 的 V_N 只参与最后一个 token 的计算。这种不对称性在深层网络中递归放大：
+
+> Pruning V₁ → 全局失真（影响每个后续 token）  
+> Pruning V_N → 局部误差（仅影响尾部）
+
+因此，对初始位置的 token 做无差别剪枝 = 系统性破坏信号传播。
+
+## Stem 框架
+
+| 组件 | 机制 | 解决的问题 |
+|------|------|-----------|
+| **[[token-position-decay|TPD]]** | 位置依赖的 top-k：前面多保留，后面激进稀疏化 | 保护递归依赖链的完整性 |
+| **[[output-aware-metric|OAM]]** | 基于近似输出幅度的 token 选择（引入 Value 信息） | 超越仅靠注意力分数的盲目选择 |
+
+## 关键特性
+
+- **Training-free**：无需微调，即插即用
+- **可叠加**：可作为插件集成到训练型稀疏模型（DeepSeek-V3.2、MiniCPM-4.1）中进一步压缩
+- **Triton 实现**：基于 [[block-sparse-attention|Block Sparse Attention]] 内核高效执行
+- **实验验证**：RULER + LongBench，Llama3.1-8B + Qwen3-8B
+
+## 与其他稀疏注意力方法的关系
+
+- [[native-sparse-attention|NSA]]（DeepSeek）是训练型稀疏注意力，Stem 可以叠加其上进一步压缩
+- [[block-sparse-attention|Block-Sparse Attention]] 是 Stem 的底层实现内核
+- [[compressed-sparse-attention|CSA]] 和 [[sparse-attention-patterns|稀疏注意力模式]] 关注 token 选择策略，Stem 的创新在于将选择策略对齐到信息流结构