Files
myWiki/reviews/stem-causal-sparse-attention-review-20260605.md

2.5 KiB
Raw Blame History

title, created, type, sources
title created type sources
Stem: Rethinking Causal Information Flow in Sparse Attention — Review 2026-06-05 review
niu-stem-causal-sparse-attention

📌 基本信息

  • 论文: Stem: Rethinking Causal Information Flow in Sparse Attention
  • 作者: Lin Niu*, Xin Luo* et al. (Tencent / USTC)
  • arXiv: 2603.06274 (March 2026)
  • 实现: Triton-based Block Sparse Attention kernel (开源)

🎯 核心概念

  1. causal-information-flow — 揭示了稀疏注意力方法的根本盲区V₁ 参与所有输出V_N 仅参与最后一个;均匀 top-k 无视这一结构
  2. token-position-decay — 位置依赖的稀疏预算:茎 token 高保留率保护递归依赖链,叶 token 激进稀疏化
  3. output-aware-metric — 超越纯注意力分数的 token 选择:引入 Value 幅度信息,选择真正高贡献的 token
  4. stem-sparse-attention — TPD + OAM 双组件training-free即插即用可叠加到训练型稀疏模型上

🔗 概念网络

📚 Wiki 集成

  • 新增页面: 6 个1 raw + 1 论文 + 4 概念)
  • 总规模: 630 → 635 页 (+5)

💡 关键洞察

"Stem"这个名字精妙——它将因果 Transformer 的 token 序列类比为植物结构stem承载养分向上输送leaf仅在末端局部作用。一旦茎被剪断整株枯萎剪一片叶子则只伤局部。这个生物学隐喻精确对应了数学上的递归误差传播剪枝 V₁ 触发指数级放大的全局失真。这不仅是优雅的类比,更是可严格推导的结构约束。

训练型 vs 非训练型的关系翻转:通常 training-free 方法被视为训练型方法的"降级替代"。但 Stem 反其道而行——它还可以叠加到训练型稀疏模型DeepSeek-V3.2、MiniCPM-4.1)上进一步压缩。这意味着 Stem 的贡献不是"取代训练型",而是提供了一个正交的压缩维度——信息流结构对齐——这是训练型方法没有优化的维度。