20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/causal-information-flow.md
+++ b/concepts/causal-information-flow.md
@@ -0,0 +1,53 @@
+---
+title: "Causal Information Flow"
+created: 2026-06-05
+updated: 2026-06-05
+type: concept
+tags: [causal-attention, information-flow, sparse, transformer]
+sources: [[niu-stem-causal-sparse-attention]]
+---
+
+# Causal Information Flow
+
+**因果信息流**（Causal Information Flow）是 [[stem-sparse-attention|Stem]] 论文提出的分析因果注意力机制的**理论视角**。它揭示了标准稀疏注意力方法系统性忽略的递归依赖结构。
+
+## 理论基础
+
+在因果 Transformer 第 l 层，对 query 位置 i，输出是前序 Value 向量的加权和：
+
+```
+O_i^(l) = Σ_{j=1}^{i} P_{i,j}^(l) · V_j^(l)
+```
+
+这揭示了**根本性的 token 不对称性**：
+
+| Token 位置 | 参与度 | 稀疏化影响 |
+|-----------|--------|-----------|
+| V₁ (第1个) | 参与所有 N 个输出的计算 | **全局失真** —— 剪枝影响每个后续 token |
+| V_N (最后) | 仅参与最终输出 O_N | **局部误差** —— 仅影响尾部 |
+
+## 跨层递归放大
+
+这种不对称性在深层网络中**递归放大**。第 l+1 层的 V 向量来自第 l 层的输出经复合映射 T（FFN + 残差 + W_V）：
+
+```
+V^(l+1) = T(O^(l))
+```
+
+这意味着：
+- 在第 l 层剪枝 V₁ → 第 l 层的所有输出畸变 → 第 l+1 层的**所有** V 向量畸变 → 整个信号流被污染
+- 这种误差传播是**递归的**：早期小小的扰动在深层被指数级放大
+
+## 与均匀稀疏化的冲突
+
+现有的 [[sparse-attention-patterns|稀疏注意力方法]] 对一层内所有位置应用相同的 top-k——这完全无视了因果信息流的结构：
+- 初始 token（茎）和尾部 token（叶）被同等对待
+- 茎 token 的剪枝造成全局信号破坏，而节省的算力有限
+
+## 设计启示
+
+因果信息流视角指导了 [[token-position-decay|TPD 策略]]的设计：
+- 茎 token → 高保留率（保护递归依赖链）
+- 叶 token → 激进稀疏化（这些 token 的剪枝影响局部）
+
+这不是启发式的——是从因果注意力机制的数学结构中推导出的结构约束。