Files
myWiki/concepts/long-range-dependency.md

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Long-Range Dependency 2026-06-18 2026-06-18 concept
sequence-modeling
memory
architecture
https://arxiv.org/abs/2312.00752

Long-Range Dependency

定义

Long-Range Dependency长距离依赖是序列建模的核心挑战模型需要在相距很远的 token 之间建立有效的语义连接。Transformer 通过注意力实现了理论上的无限上下文窗口(受内存限制),而 SSM 通过 hippo 等数学工具在固定维度的隐状态中压缩长距离信息。

不同架构的处理方式

架构 机制 复杂度 限制
Transformer 全对全注意力 O(n²) 训练O(n) 推理内存 KV cache 随序列线性增长
LSTM/RNN 隐状态 + 门控 O(n) 训练O(1) 推理 梯度消失,容量有限
S4 (LTI SSM) HiPPO 隐状态 O(n log n) 训练O(1) 推理 无内容感知
Mamba (S6) 选择性隐状态 O(n) 训练O(1) 推理 选择性但无注意力式交互

HiPPO 的作用

hippoHigh-order Polynomial Projection Operators为 SSM 提供了数学上最优的在线压缩——在给定隐状态维度下最大化对历史信息的保留能力。HiPPO-LegS 矩阵对输入的时间尺度变化具有鲁棒性,使 SSM 天然适合处理变化长度的长序列。

相关概念

参考

  • HiPPO (Gu et al., 2020)
  • gu-mamba (Gu & Dao, 2024)