40 lines
1.7 KiB
Markdown
40 lines
1.7 KiB
Markdown
---
|
||
title: "Long-Range Dependency"
|
||
created: 2026-06-18
|
||
updated: 2026-06-18
|
||
type: concept
|
||
tags: ["sequence-modeling", "memory", "architecture"]
|
||
sources: ["https://arxiv.org/abs/2312.00752"]
|
||
---
|
||
|
||
# Long-Range Dependency
|
||
|
||
## 定义
|
||
|
||
Long-Range Dependency(长距离依赖)是序列建模的核心挑战:模型需要在相距很远的 token 之间建立有效的语义连接。Transformer 通过注意力实现了理论上的无限上下文窗口(受内存限制),而 SSM 通过 [[hippo]] 等数学工具在固定维度的隐状态中压缩长距离信息。
|
||
|
||
## 不同架构的处理方式
|
||
|
||
| 架构 | 机制 | 复杂度 | 限制 |
|
||
|------|------|--------|------|
|
||
| Transformer | 全对全注意力 | O(n²) 训练,O(n) 推理内存 | KV cache 随序列线性增长 |
|
||
| LSTM/RNN | 隐状态 + 门控 | O(n) 训练,O(1) 推理 | 梯度消失,容量有限 |
|
||
| S4 (LTI SSM) | HiPPO 隐状态 | O(n log n) 训练,O(1) 推理 | 无内容感知 |
|
||
| Mamba (S6) | 选择性隐状态 | O(n) 训练,O(1) 推理 | 选择性但无注意力式交互 |
|
||
|
||
## HiPPO 的作用
|
||
|
||
[[hippo|HiPPO]](High-order Polynomial Projection Operators)为 SSM 提供了**数学上最优的在线压缩**——在给定隐状态维度下,最大化对历史信息的保留能力。HiPPO-LegS 矩阵对输入的时间尺度变化具有鲁棒性,使 SSM 天然适合处理变化长度的长序列。
|
||
|
||
## 相关概念
|
||
|
||
- [[hippo]] — SSM 处理长距离依赖的数学基础
|
||
- [[structured-state-space-models]] — 基于 HiPPO 的 S4
|
||
- [[selective-state-space]] — Mamba 在此基础上增加选择性
|
||
- [[attention-mechanism]] — 注意力的长距离依赖方案
|
||
|
||
## 参考
|
||
|
||
- HiPPO (Gu et al., 2020)
|
||
- [[gu-mamba|Mamba]] (Gu & Dao, 2024)
|