title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| Long-Range Dependency |
2026-06-18 |
2026-06-18 |
concept |
| sequence-modeling |
| memory |
| architecture |
|
|
Long-Range Dependency
定义
Long-Range Dependency(长距离依赖)是序列建模的核心挑战:模型需要在相距很远的 token 之间建立有效的语义连接。Transformer 通过注意力实现了理论上的无限上下文窗口(受内存限制),而 SSM 通过 hippo 等数学工具在固定维度的隐状态中压缩长距离信息。
不同架构的处理方式
| 架构 |
机制 |
复杂度 |
限制 |
| Transformer |
全对全注意力 |
O(n²) 训练,O(n) 推理内存 |
KV cache 随序列线性增长 |
| LSTM/RNN |
隐状态 + 门控 |
O(n) 训练,O(1) 推理 |
梯度消失,容量有限 |
| S4 (LTI SSM) |
HiPPO 隐状态 |
O(n log n) 训练,O(1) 推理 |
无内容感知 |
| Mamba (S6) |
选择性隐状态 |
O(n) 训练,O(1) 推理 |
选择性但无注意力式交互 |
HiPPO 的作用
hippo(High-order Polynomial Projection Operators)为 SSM 提供了数学上最优的在线压缩——在给定隐状态维度下,最大化对历史信息的保留能力。HiPPO-LegS 矩阵对输入的时间尺度变化具有鲁棒性,使 SSM 天然适合处理变化长度的长序列。
相关概念
参考
- HiPPO (Gu et al., 2020)
- gu-mamba (Gu & Dao, 2024)