Files
myWiki/reviews/stem-causal-sparse-attention-review-20260605.md

38 lines
2.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Stem: Rethinking Causal Information Flow in Sparse Attention — Review"
created: 2026-06-05
type: review
sources: [[niu-stem-causal-sparse-attention]]
---
# 📌 基本信息
- **论文**: Stem: Rethinking Causal Information Flow in Sparse Attention
- **作者**: Lin Niu\*, Xin Luo\* et al. (Tencent / USTC)
- **arXiv**: [2603.06274](https://arxiv.org/abs/2603.06274) (March 2026)
- **实现**: Triton-based Block Sparse Attention kernel (开源)
# 🎯 核心概念
1. **[[causal-information-flow|因果信息流]]** — 揭示了稀疏注意力方法的根本盲区V₁ 参与所有输出V_N 仅参与最后一个;均匀 top-k 无视这一结构
2. **[[token-position-decay|TPD]]** — 位置依赖的稀疏预算:茎 token 高保留率保护递归依赖链,叶 token 激进稀疏化
3. **[[output-aware-metric|OAM]]** — 超越纯注意力分数的 token 选择:引入 Value 幅度信息,选择真正高贡献的 token
4. **[[stem-sparse-attention|Stem 框架]]** — TPD + OAM 双组件training-free即插即用可叠加到训练型稀疏模型上
# 🔗 概念网络
- **核心连接**: [[stem-sparse-attention]] ↔ [[causal-information-flow]] ↔ [[token-position-decay]] ↔ [[output-aware-metric]]
- **已有网络连接**: 与 [[sparse-attention-patterns]]、[[block-sparse-attention]]、[[native-sparse-attention]]、[[compressed-sparse-attention]] 形成图谱
- **经济视角桥梁**: 位置衰减本质上是"按 token 位置差异化定价计算资源"——与 [[token-economics|Token Economics]] 的要素替代理论暗合
# 📚 Wiki 集成
- **新增页面**: 6 个1 raw + 1 论文 + 4 概念)
- **总规模**: 630 → 635 页 (+5)
# 💡 关键洞察
**"Stem"这个名字精妙**——它将因果 Transformer 的 token 序列类比为植物结构stem承载养分向上输送leaf仅在末端局部作用。一旦茎被剪断整株枯萎剪一片叶子则只伤局部。这个生物学隐喻精确对应了数学上的递归误差传播剪枝 V₁ 触发指数级放大的全局失真。这不仅是优雅的类比,更是可严格推导的结构约束。
**训练型 vs 非训练型的关系翻转**:通常 training-free 方法被视为训练型方法的"降级替代"。但 Stem 反其道而行——它还可以**叠加**到训练型稀疏模型DeepSeek-V3.2、MiniCPM-4.1)上进一步压缩。这意味着 Stem 的贡献不是"取代训练型",而是提供了一个**正交的压缩维度**——信息流结构对齐——这是训练型方法没有优化的维度。