20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,37 @@
---
title: "Stem: Rethinking Causal Information Flow in Sparse Attention — Review"
created: 2026-06-05
type: review
sources: [[niu-stem-causal-sparse-attention]]
---
# 📌 基本信息
- **论文**: Stem: Rethinking Causal Information Flow in Sparse Attention
- **作者**: Lin Niu\*, Xin Luo\* et al. (Tencent / USTC)
- **arXiv**: [2603.06274](https://arxiv.org/abs/2603.06274) (March 2026)
- **实现**: Triton-based Block Sparse Attention kernel (开源)
# 🎯 核心概念
1. **[[causal-information-flow|因果信息流]]** — 揭示了稀疏注意力方法的根本盲区V₁ 参与所有输出V_N 仅参与最后一个;均匀 top-k 无视这一结构
2. **[[token-position-decay|TPD]]** — 位置依赖的稀疏预算:茎 token 高保留率保护递归依赖链,叶 token 激进稀疏化
3. **[[output-aware-metric|OAM]]** — 超越纯注意力分数的 token 选择:引入 Value 幅度信息,选择真正高贡献的 token
4. **[[stem-sparse-attention|Stem 框架]]** — TPD + OAM 双组件training-free即插即用可叠加到训练型稀疏模型上
# 🔗 概念网络
- **核心连接**: [[stem-sparse-attention]] ↔ [[causal-information-flow]] ↔ [[token-position-decay]] ↔ [[output-aware-metric]]
- **已有网络连接**: 与 [[sparse-attention-patterns]]、[[block-sparse-attention]]、[[native-sparse-attention]]、[[compressed-sparse-attention]] 形成图谱
- **经济视角桥梁**: 位置衰减本质上是"按 token 位置差异化定价计算资源"——与 [[token-economics|Token Economics]] 的要素替代理论暗合
# 📚 Wiki 集成
- **新增页面**: 6 个1 raw + 1 论文 + 4 概念)
- **总规模**: 630 → 635 页 (+5)
# 💡 关键洞察
**"Stem"这个名字精妙**——它将因果 Transformer 的 token 序列类比为植物结构stem承载养分向上输送leaf仅在末端局部作用。一旦茎被剪断整株枯萎剪一片叶子则只伤局部。这个生物学隐喻精确对应了数学上的递归误差传播剪枝 V₁ 触发指数级放大的全局失真。这不仅是优雅的类比,更是可严格推导的结构约束。
**训练型 vs 非训练型的关系翻转**:通常 training-free 方法被视为训练型方法的"降级替代"。但 Stem 反其道而行——它还可以**叠加**到训练型稀疏模型DeepSeek-V3.2、MiniCPM-4.1)上进一步压缩。这意味着 Stem 的贡献不是"取代训练型",而是提供了一个**正交的压缩维度**——信息流结构对齐——这是训练型方法没有优化的维度。