20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,48 @@
---
title: "Stem: Rethinking Causal Information Flow in Sparse Attention"
created: 2026-06-05
updated: 2026-06-05
type: paper
tags: [sparse-attention, causal, information-flow, pre-filling, training-free]
sources: [arxiv:2603.06274]
---
# Stem: Rethinking Causal Information Flow in Sparse Attention
> Niu et al. (Tencent / USTC), arXiv:2603.06274 (March 2026)
## 核心问题
Self-attention 的二次复杂度是 LLM 长上下文推理(特别是 pre-filling 阶段)的根本瓶颈。现有的 [[sparse-attention-patterns|稀疏注意力方法]] 存在两个系统性问题:
1. **统一 top-k**:对一层内所有 token 位置应用相同的稀疏预算,忽略了 [[causal-information-flow|因果信息流]] 的累积依赖结构
2. **仅靠注意力分数**:基于模拟的注意力分数选 token忽略了 token 的实际信息贡献Value 信息)
## 关键洞察:因果架构中的 Token 不对称性
在因果注意力中,第 1 个 token 的 Value 向量 V₁ 参与**所有后续 token** 的计算,而第 N 个 token 的 V_N 只参与最后一个 token 的计算。这种不对称性在深层网络中递归放大:
> Pruning V₁ → 全局失真(影响每个后续 token
> Pruning V_N → 局部误差(仅影响尾部)
因此,对初始位置的 token 做无差别剪枝 = 系统性破坏信号传播。
## Stem 框架
| 组件 | 机制 | 解决的问题 |
|------|------|-----------|
| **[[token-position-decay|TPD]]** | 位置依赖的 top-k前面多保留后面激进稀疏化 | 保护递归依赖链的完整性 |
| **[[output-aware-metric|OAM]]** | 基于近似输出幅度的 token 选择(引入 Value 信息) | 超越仅靠注意力分数的盲目选择 |
## 关键特性
- **Training-free**:无需微调,即插即用
- **可叠加**可作为插件集成到训练型稀疏模型DeepSeek-V3.2、MiniCPM-4.1)中进一步压缩
- **Triton 实现**:基于 [[block-sparse-attention|Block Sparse Attention]] 内核高效执行
- **实验验证**RULER + LongBenchLlama3.1-8B + Qwen3-8B
## 与其他稀疏注意力方法的关系
- [[native-sparse-attention|NSA]]DeepSeek是训练型稀疏注意力Stem 可以叠加其上进一步压缩
- [[block-sparse-attention|Block-Sparse Attention]] 是 Stem 的底层实现内核
- [[compressed-sparse-attention|CSA]] 和 [[sparse-attention-patterns|稀疏注意力模式]] 关注 token 选择策略Stem 的创新在于将选择策略对齐到信息流结构