Files
myWiki/concepts/causal-information-flow.md

54 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Causal Information Flow"
created: 2026-06-05
updated: 2026-06-05
type: concept
tags: [causal-attention, information-flow, sparse, transformer]
sources: [[niu-stem-causal-sparse-attention]]
---
# Causal Information Flow
**因果信息流**Causal Information Flow是 [[stem-sparse-attention|Stem]] 论文提出的分析因果注意力机制的**理论视角**。它揭示了标准稀疏注意力方法系统性忽略的递归依赖结构。
## 理论基础
在因果 Transformer 第 l 层,对 query 位置 i输出是前序 Value 向量的加权和:
```
O_i^(l) = Σ_{j=1}^{i} P_{i,j}^(l) · V_j^(l)
```
这揭示了**根本性的 token 不对称性**
| Token 位置 | 参与度 | 稀疏化影响 |
|-----------|--------|-----------|
| V₁ (第1个) | 参与所有 N 个输出的计算 | **全局失真** —— 剪枝影响每个后续 token |
| V_N (最后) | 仅参与最终输出 O_N | **局部误差** —— 仅影响尾部 |
## 跨层递归放大
这种不对称性在深层网络中**递归放大**。第 l+1 层的 V 向量来自第 l 层的输出经复合映射 TFFN + 残差 + W_V
```
V^(l+1) = T(O^(l))
```
这意味着:
- 在第 l 层剪枝 V₁ → 第 l 层的所有输出畸变 → 第 l+1 层的**所有** V 向量畸变 → 整个信号流被污染
- 这种误差传播是**递归的**:早期小小的扰动在深层被指数级放大
## 与均匀稀疏化的冲突
现有的 [[sparse-attention-patterns|稀疏注意力方法]] 对一层内所有位置应用相同的 top-k——这完全无视了因果信息流的结构
- 初始 token和尾部 token被同等对待
- 茎 token 的剪枝造成全局信号破坏,而节省的算力有限
## 设计启示
因果信息流视角指导了 [[token-position-decay|TPD 策略]]的设计:
- 茎 token → 高保留率(保护递归依赖链)
- 叶 token → 激进稀疏化(这些 token 的剪枝影响局部)
这不是启发式的——是从因果注意力机制的数学结构中推导出的结构约束。