myWiki/concepts/long-range-dependency.md

---
title: "Long-Range Dependency"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: ["sequence-modeling", "memory", "architecture"]
sources: ["https://arxiv.org/abs/2312.00752"]
---

# Long-Range Dependency

## 定义

Long-Range Dependency（长距离依赖）是序列建模的核心挑战：模型需要在相距很远的 token 之间建立有效的语义连接。Transformer 通过注意力实现了理论上的无限上下文窗口（受内存限制），而 SSM 通过 [[hippo]] 等数学工具在固定维度的隐状态中压缩长距离信息。

## 不同架构的处理方式

| 架构 | 机制 | 复杂度 | 限制 |
|------|------|--------|------|
| Transformer | 全对全注意力 | O(n²) 训练，O(n) 推理内存 | KV cache 随序列线性增长 |
| LSTM/RNN | 隐状态 + 门控 | O(n) 训练，O(1) 推理 | 梯度消失，容量有限 |
| S4 (LTI SSM) | HiPPO 隐状态 | O(n log n) 训练，O(1) 推理 | 无内容感知 |
| Mamba (S6) | 选择性隐状态 | O(n) 训练，O(1) 推理 | 选择性但无注意力式交互 |

## HiPPO 的作用

[[hippo|HiPPO]]（High-order Polynomial Projection Operators）为 SSM 提供了**数学上最优的在线压缩**——在给定隐状态维度下，最大化对历史信息的保留能力。HiPPO-LegS 矩阵对输入的时间尺度变化具有鲁棒性，使 SSM 天然适合处理变化长度的长序列。

## 相关概念

- [[hippo]] — SSM 处理长距离依赖的数学基础
- [[structured-state-space-models]] — 基于 HiPPO 的 S4
- [[selective-state-space]] — Mamba 在此基础上增加选择性
- [[attention-mechanism]] — 注意力的长距离依赖方案

## 参考

- HiPPO (Gu et al., 2020)
- [[gu-mamba|Mamba]] (Gu & Dao, 2024)