Files
myWiki/concepts/causal-information-flow.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Causal Information Flow 2026-06-05 2026-06-05 concept
causal-attention
information-flow
sparse
transformer
niu-stem-causal-sparse-attention

Causal Information Flow

因果信息流Causal Information Flowstem-sparse-attention 论文提出的分析因果注意力机制的理论视角。它揭示了标准稀疏注意力方法系统性忽略的递归依赖结构。

理论基础

在因果 Transformer 第 l 层,对 query 位置 i输出是前序 Value 向量的加权和:

O_i^(l) = Σ_{j=1}^{i} P_{i,j}^(l) · V_j^(l)

这揭示了根本性的 token 不对称性

Token 位置 参与度 稀疏化影响
V₁ (第1个) 参与所有 N 个输出的计算 全局失真 —— 剪枝影响每个后续 token
V_N (最后) 仅参与最终输出 O_N 局部误差 —— 仅影响尾部

跨层递归放大

这种不对称性在深层网络中递归放大。第 l+1 层的 V 向量来自第 l 层的输出经复合映射 TFFN + 残差 + W_V

V^(l+1) = T(O^(l))

这意味着:

  • 在第 l 层剪枝 V₁ → 第 l 层的所有输出畸变 → 第 l+1 层的所有 V 向量畸变 → 整个信号流被污染
  • 这种误差传播是递归的:早期小小的扰动在深层被指数级放大

与均匀稀疏化的冲突

现有的 sparse-attention-patterns 对一层内所有位置应用相同的 top-k——这完全无视了因果信息流的结构

  • 初始 token和尾部 token被同等对待
  • 茎 token 的剪枝造成全局信号破坏,而节省的算力有限

设计启示

因果信息流视角指导了 token-position-decay的设计:

  • 茎 token → 高保留率(保护递归依赖链)
  • 叶 token → 激进稀疏化(这些 token 的剪枝影响局部)

这不是启发式的——是从因果注意力机制的数学结构中推导出的结构约束。